关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3293人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国被指与伊朗接近达成超音速导弹采购协议 外交部回应

澎湃新闻 浏览 1571

三季报净利下降58%,信邦智能欲28亿搞并购,或新增商誉21.5亿

尺度财经 浏览 3140

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

差评XPIN 浏览 2156

特斯拉进入平价棋局 不足4万美元的新车又是鲶鱼?

禾颜阅车 浏览 3447

声音更加动听 本田全新一代混合动力系统最新消息曝光

乐选爱车 浏览 2379

中山大学等九校联手突破:AI实现软件bug自动侦测与修复

科技行者 浏览 2245

马英九祝贺郑丽文当选:坚守"九二共识" 促进两岸关系

参考消息 浏览 7314

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 3467

调查高通,开辟第二战场

博闻财经 浏览 3482

顶流男星陷“禁演”罗生门?

仙女事件簿 浏览 1524

比起辣妹风,早秋这样穿的女生才是高段位吧!

Yuki女人故事 浏览 5265

港科大突破:代码本技术提升AI医学图像分析稳定性

科技行者 浏览 2156

李在明送特朗普的金冠是镀金的 纯金太贵得花150万元

极目新闻 浏览 8777

从嬉皮士到硅谷教父,他写了一本关于“维修”的书

DeepTech深科技 浏览 318

OPPO Enco R5无线耳机现身中国电信终端产品库

IT之家 浏览 796

躲在流量后面的人,被监管点名了

钛媒体APP 浏览 2796

特朗普行政令降低大麻管制等级,投资者“卖事实”,大麻股普跌

华尔街见闻官方 浏览 2654

别克至境L7:新能源赛道,没有人能靠旧身份活下去

AutoBusiness 浏览 4232

业绩承压借款激增 林平发展“带伤”闯关IPO

北京商报 浏览 2808

媒体:美航母编队一重要舰种 已经少于中国055大驱

新民周刊 浏览 36642

退休三年后“落马”,恒邦财险原董事长肖晓华被查

蓝鲸Insurance 浏览 2255
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1