关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者3281人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美称空袭叙利亚西北部 打死一名与“基地”组织关联头目

新华社 浏览 2351

凌晨3点45 德国复仇战!赢球=晋级世界杯+种子队 首发曝光

叶青足球世界 浏览 2994

“电池车”全面压过“发动机”一头?油车时代的辉煌,被彻底终结

少数派报告Report 浏览 2767

颠覆认知!用这8把“尺子”重新丈量中国餐饮未来!

餐饮老板内参 浏览 4077

央行连续增持黄金,10月我国外汇储备规模稳中有升

中国商报 浏览 3230

湖人126-114勇士,库詹东缺阵,里夫斯21分伤退,波杰23+5+8

懂球帝 浏览 3407

张兰回京仅三天连出四大决策,马筱梅直播拆台

秋别离 浏览 1522

2026年央视春晚彩排开始!沈腾马丽回归,但呼声最高的是他们

娱乐圈笔娱君 浏览 2418

多哈两站国乒丢6冠!统治力下滑频繁被爆冷 急需王楚钦孙颖莎回归

颜小白的篮球梦 浏览 2223

"女首相梦"悬了的高市公开支持赖清德 日本亲华派翻脸

梁讯 浏览 7224

全国首个!华为、联通把5G-A上行速率飚到1Gbps

快科技 浏览 2163

Aqara绿米推出U400智能锁:自带UWB超宽带,可实现无感解锁

IT之家 浏览 2502

特斯拉 FSD V14 Lite 将上线,老车主率先体验

三言科技 浏览 54

亚冠激烈冲突!米内罗点球破门,10人互相推搡,柔佛门将贴脸怒吼

奥拜尔 浏览 3184

IU的脸,真的有自己的时间线

时尚COSMO 浏览 42

特朗普签署行政令 对进口中型和重型卡车征收25%关税

央视新闻客户端 浏览 9645

三幅字画涉刑被拍卖 其中徐悲鸿"奔马图"起拍价4762万

极目新闻 浏览 9055

八位堂推出“任天堂 NES 游戏机 40 周年”主体限定外设硬件

IT之家 浏览 3504

企业在自然保护区建研学机构烂尾7年 致百亩农田荒废

封面新闻 浏览 8381

宗馥莉辞职内幕曝光,大女主的复仇之路,如何伤了娃哈哈?

北向财经 浏览 3361

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 2666
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1