关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3635人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

张彬彬人笨又勤快,帮毛晓彤提裙子差点让她走光

石场阿鑫 浏览 2529

邮报:流浪者正考虑让麦克马斯特临时带队,等待穆斯卡特

懂球帝 浏览 3428

长安汽车辟谣“取消年终奖”,或发4.3月薪+3000

盖世汽车 浏览 2394

海南"零关税"豪车引热议 保时捷卡宴鲜有符合要求车型

每日经济新闻 浏览 30396

纯电续航175公里,吉利银河A7长续航版申报

IT之家 浏览 2324

俄外交部:乌方对和平解决冲突“缺乏兴趣”

环球网资讯 浏览 2962

不是谁弱谁有理,何美延只是说的好听

小椰的奶奶 浏览 2265

春天第一条裙子,这么穿!

黎贝卡的异想世界 浏览 1504

一杯酸奶,估值1422亿

投中网 浏览 3190

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

极目新闻 浏览 6693

港女最爱的国产单品,赢了特斯拉?

新周刊 浏览 2885

蓝箭航天冲刺商业火箭第一股 万亿赛道谁最受益?

21世纪经济报道 浏览 2359

福建200亿国企董事长卸任,去年薪酬545万元

华美财经 浏览 3405

Nuralogix智能镜亮相CES,可看脸提供“长寿评分”

IT之家 浏览 2453

诋毁蚂蚁集团,粉丝超1亿“专家”被封禁,什么信号?

一见财经 浏览 706

伊姐周六热推:电视剧《小城大事》;电视剧《轧戏》......

伊周潮流 浏览 2399

从文淇被堵看无赖滋事的成本有多低

八卦三缺一 浏览 1866

郑钦文排名跌至世界第24!年终确定跌出前20 不影响澳网种子席位

风过乡 浏览 3364

写了10年流行色,今年这个真的很适合亚洲人

黎贝卡的异想世界 浏览 2717

热度破9000,赵丽颖谭松韵令观众成功入坑,这部年底压轴剧太生猛

娱乐圈笔娱君 浏览 2579

介绍一个如果你用了,你就看不到这篇文章的产品

时尚COSMO 浏览 2609
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1