关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3636人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:加拉塔萨雷正和贝蒂斯就引进阿尔蒂米拉展开谈判

懂球帝 浏览 2090

气场拉满:泰国改装厂让长城坦克300“变身”Brabus G63

IT之家 浏览 2440

博主:王子铭今天自行加练,周金辉、李明等高层现身训练基地

懂球帝 浏览 3206

曼城vs埃克塞特城:塞门约首秀,哈兰德、罗德里、阿克首发

懂球帝 浏览 1889

斯基拉:马竞计划买断冈萨雷斯,费用为3200万欧+100万欧奖金

懂球帝 浏览 3565

溢价24%仍失败!必和必拓被爆出价400亿英镑被拒,英美资源坚持自身并购计划

华尔街见闻官方 浏览 2899

内娱声明还有可信度吗?

韩小娱 浏览 3308

加沙停火协议文件在埃及签署

鲁中晨报 浏览 3503

现身非洲杯,姆巴佩去看他父亲祖国喀麦隆对阵科特迪瓦的比赛

懂球帝 浏览 2622

一字跌停!航天大牛股收购凉了,总经理已高位套现770万

深蓝财经 浏览 2188

今日起,数字人民币开始计息,这些变化影响你的钱包

红星资本局 浏览 2438

超34.2万人爆仓,比特币一度跌破10万美元关口

观察者网 浏览 3147

人民银行连续第九个月加量续作MLF

北京商报 浏览 2936

被采取刑事强制措施后,善水科技董事长宣布“婚变”、辞职,前妻成实控人

红星资本局 浏览 3231

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

红星新闻 浏览 9153

前排双联屏+女王副驾 与众08内饰发布还配调光天幕

网易汽车 浏览 1504

女友BELLA+封面 | Jimmy&Ohm:人生拼图

伊周潮流 浏览 2174

泽连斯基宣布:或购买150架"鹰狮"战斗机 已签意向书

环球网资讯 浏览 8497

做企业,是一场反人性的修炼

创业家 浏览 3254

佛罗伦萨,不只是法比安。《民族报》:“准备好为托尔斯泰特报价”

绿茵情报局 浏览 2259

英韧预计 2026 年推出 PCIe 6.0 AI SSD,支持 NVMe + CXL 双协议

IT之家 浏览 3922
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1