关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro320人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

传祺向往M8宗师上市 补贴价24.99万元起

网易汽车 浏览 3464

50+女性秋季穿搭新思路:告别卫衣,这4类上衣让你显嫩又有质感

静儿时尚达人 浏览 3206

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻 浏览 2103

东体:申花充分利用体能优势,亚冠失利对蓉城士气的打击或许更大

直播吧 浏览 4153

速卖通正在成为更多亚马逊商家的第一阵地

华尔街见闻官方 浏览 3625

美联储降息25基点 仍预计明年降息一次

华尔街见闻官方 浏览 2733

官方:狼堡签下20岁日本中场盐贝健人;据悉转会费900万欧

懂球帝 浏览 2305

人道局势持续恶化 加沙停火能否进入第二阶段尚存变数

国际在线 浏览 2415

佩罗内谈2-0尤文:我们已形成胜利心态,相信自己能赢任何球队

懂球帝 浏览 3349

美制裁马杜罗家族成员 加大对委政权施压

财联社 浏览 2607

不再单押汉堡 塔斯汀重卖比萨的背后

北京商报 浏览 2791

大众汽车营收微降却亏麻了,利润腰斩暴跌53.5%!

财视传播 浏览 1528

福特在华渠道大整合,能否激发出新动力?

禾颜阅车 浏览 3291

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 2664

杜克大学开创新型物联网控制语言,手机就能对话所有智能设备

科技行者 浏览 3257

中国人均负债14万!央妈发“信用修复丸”年轻人满意吗?

花朵财经 浏览 2598

喜报!识局助力一家机器人企业落户西南某地!

识局 浏览 3200

哪吒汽车“重启”新进展

大象新闻 浏览 2752

京沪高铁:一道复杂的算术题

锦缎研究院 浏览 2514

AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后

机器之心Pro 浏览 2562

俄石油贸易商要求印度简化流程:直接付人民币

澎湃新闻 浏览 4666
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1