关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro323人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

荣耀MagicOS 10十二月升级资讯:新增支持与Mac一碰互传等

IT之家 浏览 2732

追觅进入剃须刀市场推出首款产品“小胶囊S7 Pro”

IT之家 浏览 3522

自称快19岁女子诞下女婴被医生违规抱养 医院5人被罚

大风新闻 浏览 7600

长和:董事会对巴拿马之裁定及相应行动表示强烈反对

每日经济新闻 浏览 4336

曼联连续5场英超不败,为阿莫林治下最长不败纪录

懂球帝 浏览 3224

国有股东提前离场、技术总监辞职,吉和昌守住了净利润连增|读懂IPO

时代周报 浏览 312

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

静儿时尚达人 浏览 2495

年仅46岁!“量子通信第一股”董事长在办公室去世,5月才上任

财通社 浏览 2719

股价年内涨近127%!汇量科技是如何做到的?

览富财经网 浏览 3192

卓正医疗通过IPO备案:年营收6.9亿 腾讯与H Capital是股东

雷递 浏览 4090

富士通FMV Note A A77-K3笔记本:保留蓝光光驱,搭载AMD 7735U

IT之家 浏览 3414

《用武之地》票房崩塌:这块金字招牌算砸了

靠谱电影君 浏览 2470

活塞125-107大胜篮网豪取5连胜,坎宁安34+10,杜伦30分

懂球帝 浏览 3193

H-1B签证费涨至10万美元 分析人士:将重创美科技行业

财联社 浏览 20651

一加 15 /Ace 6 适配《金铲铲之战》原生 165 超高帧模式

IT之家 浏览 3376

好久没跟大家线下见面啦,快来找我玩

黎贝卡的异想世界 浏览 2236

阿Sa闪婚原因曝光,曾冻卵计划40多岁生小孩

萌神木木 浏览 57

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 3267

现场调查!拥有“黄金”招牌的金雅福爆雷后人去楼空,“买卖+委托”模式是否涉嫌非法吸存

华夏时报 浏览 2483

夫妇盯上2‰自然损耗规则 上千吨粮食遭盗卖价值500万

CCTV今日说法 浏览 8487

即将结束非洲之旅,网红Speed受邀观战非洲杯决赛并获赠球衣

懂球帝 浏览 2298
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1