关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3946人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

带队英超客胜曼城和利物浦,阿莫林是近五个赛季唯一一人

懂球帝 浏览 3873

伊姐周日热推:电视剧《声渊》;电视剧《绝境通缉令》......

伊周潮流 浏览 2781

"最快女护士"张水华风波后首次公开参赛 获女子组第二

每日经济新闻 浏览 8482

日本前外相:高市言论"可能开启一条通往战争的道路"

参考消息 浏览 18099

欧洲对美方"28点计划"逐一删改 令俄罗斯舆论颇为不满

环球网资讯 浏览 16155

特朗普取消"特普会"对俄追加制裁 俄发出强烈威慑信号

上游新闻 浏览 7982

高管减持、股东跑路、产品爆炸:上市公司的“中年危机”

诗与星空 浏览 3732

财经早餐:中秋国庆旅游市场迎热潮;摩尔线程IPO过会拟募资80亿元

网易财经 浏览 4178

2000多年楚王大墓被盗 "摸金校尉"在村里租房3年寻墓

上游新闻 浏览 9033

松延动力创始人姜哲源回应“低价”:机器人本身就不该那么贵

中国经营报 浏览 3683

媒体人:湖人希望詹姆斯赛季后退役;詹姆斯与湖人已陷入冷战

懂球帝 浏览 3656

产品力再提升 全新雪佛兰Bolt EV新车图解

车质网 浏览 3528

风扇网红小玉租70元婚纱,在出租屋与大鹏结婚

深析古今 浏览 4300

74岁刘晓庆近况!生图皮肤白皙状态回春

艳儿说电影 浏览 3474

“麂皮包”越来越流行,秋冬怎么搭都好看

LinkFashion 浏览 2750

泽连斯基称乌将在柏林和哥本哈根设立武器出口办事处

环球网资讯 浏览 3314

升东部第二!绿军轻取公牛获4连胜 西蒙斯27分普里查德21分

醉卧浮生 浏览 2778

秦昊一家五口度假,伊能静少女打扮但很显胖

八怪娱 浏览 2921

莱巴金娜送蛋逆转夺冠进总决赛形势大好,安德列娃已失去主动权

网球之家 浏览 3668

荣耀MagicOS 10十二月升级资讯:新增支持与Mac一碰互传等

IT之家 浏览 3034

广汽集团辟谣“一半汽车芯片由格力供应”:并非事实

中新经纬 浏览 2603
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1