关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3295人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

不计成本的超跑梦想:Ascari Ecosse的传奇往事

老爷车 浏览 2748

格拉斯纳:期待与埃泽的碰面,但在比赛中我们只会全力争胜

懂球帝 浏览 3320

货拉拉跑腿骑手取走万元苹果手机后失联 手机店主发声

红星新闻 浏览 8570

男子"手搓"小船带着儿子游太湖被困:船刚开出一公里

上游新闻 浏览 21604

52岁男星赔了3.8亿!沉迷炒币不愿脱身,网友直言很难有好下场

萌神木木 浏览 3267

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 8217

币圈再度血流成河!比特币6月以来首次跌破10万大关,以太币暴跌10%

华尔街见闻官方 浏览 3145

泡椒凤爪“塌房”,有友食品躺枪

斑马消费 浏览 1328

55岁郑丽文当选国民党主席 其被视为"非典型国民党人"

中国青年报 浏览 7032

曝小米汽车调整销售体系!

电动知家 浏览 4176

全是感动!《许我耀眼》33集大结局,是我今年看过最泪奔的大结局

娱乐圈笔娱君 浏览 3395

10.58 万!零跑造了一台「红米 YU7」

极客公园 浏览 3181

尊界公众号,主体为啥变了?

车轱辘话V 浏览 3426

小个子女生冬天怎么穿衣?上宽下紧、体现曲线,显高显瘦舒适

静儿时尚达人 浏览 2659

威胁要对盟国加征关税后 特朗普亲率代表团出席达沃斯

澎湃新闻 浏览 11852

纪凌尘与韩国女友泰国度假,两人相恋5年

明星私服穿搭daily 浏览 1606

账面1000多亿,却隐藏20多年,整个互联网都找不到它长什么样

壹只灰鸽子 浏览 2280

全球数百美军高级将领突然被召回 特朗普发声

环球网资讯 浏览 3981

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者 浏览 3338

海底捞小便案详情披露:俩17岁男生玩游戏 家长赔220万

潇湘晨报 浏览 7983

奇瑞瑞虎9家族全面上市 抢鲜价12.79万起

网易汽车 浏览 3999
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1