关闭广告

AI让机器写代码变得更聪明:伊利诺伊大学团队破解训练瓶颈新方法

科技行者3181人阅读


当我们训练人工智能写代码或解数学题时,就像教小孩做作业一样,需要给它很多练习题。但问题来了:有些题目太简单,AI一下就会了;有些题目太难,AI怎么也学不会。更麻烦的是,按照传统方法,不管题目难易,我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间,也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队,在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器",让它能够根据题目难度自动分配练习时间,既不浪费计算资源,又能确保每道题都学得扎实。

研究团队的核心发现是:当前主流的AI训练方法GRPO(组相对策略优化)存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时(要么全对要么全错),系统就收不到有用的学习信号,就像老师看到学生交上来的作业要么全是满分要么全是零分,无法判断学生的真实水平。

为了解决这个问

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

塔帅:赢球能带来能量和信心,我觉得这是足球最重要的两件事

懂球帝 浏览 2232

香港赛签表公布:吴易昺商竣程领衔,穆塞蒂会否遭嘘?

网球之家 浏览 2428

机主称手机莫名被停机超半个月 运营商:号码为高风险

红星新闻 浏览 10980

古二3次发布录音,王家卫秦雯深陷争议

阿伧说事 浏览 3049

冬天从60分穿到80分,只需要这个实用单品

黎贝卡的异想世界 浏览 2852

尼斯和巴黎FC的比赛中看台响起恐同口号,导致比赛中断几分钟

懂球帝 浏览 3960

有4S店0成交,购置税新政实施6天,哪些车依然好卖?

路咖汽车 浏览 2394

高能量唱跳歌手李斯丹妮的「12小时」,居然是这样度过的?

时尚COSMO 浏览 2135

*ST沪科面临退市风险,或还因此前信披问题遭股民索赔

雷达财经 浏览 2085

TimeSeriesScientist:AI首个实现全自动时间序列分析

科技行者 浏览 3312

泽连斯基称俄乌和平协议无简单解决方案 普京发声

每日经济新闻 浏览 2761

巴黎时装周|来看,全世界最美的衣服

LinkFashion 浏览 3516

法媒:让热亚尔与巴黎的合同明夏到期,法兰克福等队对他有意

懂球帝 浏览 2634

特朗普突然中止与加拿大贸易谈判 加元汇率直线跳水

每日经济新闻 浏览 9225

AI会取代考古学家吗?在这场沙龙中窥见人工智能对文保利用的影响

封面新闻 浏览 3400

委内瑞拉武装部队宣布增招士兵5600名

界面新闻 浏览 2769

韩国防部给出核潜艇下水时间点 此前韩国已向中方保证

澎湃新闻 浏览 15840

杰哈德指责加沙“和平委员会”组成服务于以方利益

极目新闻 浏览 2304

“渣女裙”out!今秋这15条裙子正流行!

Yuki女人故事 浏览 3874

特朗普:取消与普京在布达佩斯的会面

央视新闻客户端 浏览 2787

马斯克:特斯拉Optimus机器人将成为“令人难以置信的外科医生”

IT之家 浏览 3266
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1