关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3635人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

知名＂富二代＂所创明星机器人公司突解散研发阵容豪华

每日经济新闻浏览 7081

波罗的海三国正式退出《渥太华禁雷公约》

上观新闻浏览 2530

加多宝和王老吉又打击起来了？持续不断的争斗真的有意义吗？

江瀚视野浏览 3381

精彩推荐

张彬彬人笨又勤快，帮毛晓彤提裙子差点让她走光

石场阿鑫浏览 2529

邮报：流浪者正考虑让麦克马斯特临时带队，等待穆斯卡特

懂球帝浏览 3428

长安汽车辟谣“取消年终奖”，或发4.3月薪+3000

盖世汽车浏览 2394

海南＂零关税＂豪车引热议保时捷卡宴鲜有符合要求车型

每日经济新闻浏览 30396

纯电续航175公里，吉利银河A7长续航版申报

IT之家浏览 2324

俄外交部：乌方对和平解决冲突“缺乏兴趣”

环球网资讯浏览 2962

不是谁弱谁有理，何美延只是说的好听

小椰的奶奶浏览 2265

春天第一条裙子，这么穿！

黎贝卡的异想世界浏览 1504

一杯酸奶，估值1422亿

投中网浏览 3190

伊朗最高领袖哈梅内伊转入地堡日常事务交由儿子接管

极目新闻浏览 6693

港女最爱的国产单品，赢了特斯拉？

新周刊浏览 2885

蓝箭航天冲刺商业火箭第一股万亿赛道谁最受益？

21世纪经济报道浏览 2359

福建200亿国企董事长卸任，去年薪酬545万元

华美财经浏览 3405

Nuralogix智能镜亮相CES，可看脸提供“长寿评分”

IT之家浏览 2453

诋毁蚂蚁集团，粉丝超1亿“专家”被封禁，什么信号？

一见财经浏览 706

伊姐周六热推：电视剧《小城大事》；电视剧《轧戏》......

伊周潮流浏览 2399

从文淇被堵看无赖滋事的成本有多低

八卦三缺一浏览 1866

郑钦文排名跌至世界第24！年终确定跌出前20 不影响澳网种子席位

风过乡浏览 3364

写了10年流行色，今年这个真的很适合亚洲人

黎贝卡的异想世界浏览 2717

热度破9000，赵丽颖谭松韵令观众成功入坑，这部年底压轴剧太生猛

娱乐圈笔娱君浏览 2579

介绍一个如果你用了，你就看不到这篇文章的产品

时尚COSMO 浏览 2609

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1