关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro746人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

张慧贤指责万鹏“当小三当惯了”万鹏方严正声明

韩小娱 浏览 3650

沙特被指已下单50架超30亿美金的ch7无人机 官方回应

澎湃新闻 浏览 8151

新不如旧!这4件时髦“旧衣服”今年太火了

LinkFashion 浏览 2535

固态电池量产提速!超千万新能源车主,竟成被割的 “老韭菜”?

数字财经智库 浏览 4375

伊姐周日热推:电视剧《声渊》;电视剧《绝境通缉令》......

伊周潮流 浏览 2781

谢娜演唱会庆功宴现场 张杰宠妻 半个娱乐圈齐聚

手工制作阿歼 浏览 228

邮报:纽卡中卫丹-伯恩遭遇肺穿孔和肋骨骨折,将缺阵六周

懂球帝 浏览 2964

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 8850

孙颖莎脚踝伤势或不严重!行走自如+下蹲轻松 回京养伤坐等乒超?

颜小白的篮球梦 浏览 3024

中东多个海水淡化厂受损 引发饮用水武器化担忧

澎湃新闻 浏览 1658

金球奖撒糖、霉霉破纪录与“鲍小强”翻车

粉红冻奶的观影日记 浏览 2686

台湾省金钟奖成了“照妖镜”,小S拿奖后,破防人算是照明白了

娱乐圈笔娱君 浏览 3701

郭德纲相声春晚访谈,透露最新计划

杨仔述 浏览 2607

19岁女生挪用千万打赏主播细节曝光!主播不无辜,疑买房转移资金

萌神木木 浏览 749

高圆圆首谈当妈感受:感情都在妈妈身上用完了

雅儿姐爱追剧 浏览 2566

内燃机巅峰艺术 世界最传奇的V12发动机盘点

ams车评网 浏览 1960

在巴林的中国旅客亲历空袭:你听!导弹又来了

澎湃新闻 浏览 1889

记者:詹姆斯复出后将湖人的快攻水平从倒数后5提升到正数前5

懂球帝 浏览 3250

李亚鹏称体检后疑似患癌 忙着处理医院欠租没时间恐慌

上观新闻 浏览 6944

小高领,现在穿刚刚好

Yuki女人故事 浏览 2449

HWG!罗马诺:维拉1200万欧签下梅斯16岁前锋马乔已达成协议

懂球帝 浏览 2684
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1