关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3606人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梅开二度,姆伯莫当选与布莱顿一役曼联队内最佳球员

懂球帝 浏览 3666

影视大佬吴敦离世,贾静雯林志颖发文悼念

素素娱乐 浏览 2407

嫣然医院欠租发不起工资 网友捐款超1400万李亚鹏致谢

每日经济新闻 浏览 6821

理想i6“涨价”:现金减免从1万元调整为5000元

电动知家 浏览 3586

莱万特3-0大胜塞维利亚,卡洛斯-阿尔瓦雷斯、卡洛斯-埃斯皮破门

懂球帝 浏览 2703

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

静儿时尚达人 浏览 3559

郑丽文再次公布人事任命朱立伦尴尬了 洪秀柱罕见喊话

策略述 浏览 9475

万科A:第三季度净利润亏损160.69亿元

网易财经 浏览 2909

格列兹曼:媒体曾报道梅西对我不满,但比赛中他主动让点给我

懂球帝 浏览 3783

纯电续航215km 全新阿尔法T5增程版10月底将上市

网易汽车 浏览 3978

金九银十冲刺期:中国车企最新销量与目标完成率同步披露

汽车族杂志 浏览 3930

曼晚:回曼市的路上卡里克一直在看回放,今天他们看U21比赛

懂球帝 浏览 2508

MIT研究发现:人工智能已经可以取代美国11.7%的劳动力

华尔街见闻官方 浏览 3142

397场,凯尔-沃克追平英超历史边后卫首发次数纪录

懂球帝 浏览 3607

牛弹琴:荷兰控制中企简直"白痴" 现在给中国道歉晚了

大象新闻 浏览 7338

国米官方:劳塔罗当选球队12月队内最佳球员

懂球帝 浏览 2661

上午设计、次日量产,“AI密度最高的城市”如何借供应链优势加快企业出海?

时代周报 浏览 3501

媒体:中国该如何在军事部署上经营台湾 如今值得思考

新民周刊 浏览 7892

30 个月,一个周榜的诞生与消失

晚点LatePost 浏览 3576

世体:巴萨已获得1C许可证,主席大选日将开放诺坎普北看台

懂球帝 浏览 1807

女子花费2000多元认养老虎 结果虎园隐瞒老虎死讯数月

大风新闻 浏览 31409
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1