爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

陈浩民夫妇滞...

蔚来推新ES...

中国色特别策...

德容：理解巴...

阔腿裤失宠了...

AI虚拟细胞...

曼联官方：召回小将惠特利，为北安普顿出场25次打进3球

这次白银暴跌是人为操纵的？

3股业绩大涨！制冷剂价格持续上行

美称空袭叙利亚西北部打死一名与“基地”组织关联头目

凌晨3点45 德国复仇战！赢球=晋级世界杯+种子队首发曝光

“电池车”全面压过“发动机”一头？油车时代的辉煌，被彻底终结

颠覆认知！用这8把“尺子”重新丈量中国餐饮未来！

央行连续增持黄金，10月我国外汇储备规模稳中有升

湖人126-114勇士，库詹东缺阵，里夫斯21分伤退，波杰23+5+8

张兰回京仅三天连出四大决策，马筱梅直播拆台

2026年央视春晚彩排开始！沈腾马丽回归，但呼声最高的是他们

多哈两站国乒丢6冠！统治力下滑频繁被爆冷急需王楚钦孙颖莎回归

＂女首相梦＂悬了的高市公开支持赖清德日本亲华派翻脸

全国首个！华为、联通把5G-A上行速率飚到1Gbps

Aqara绿米推出U400智能锁：自带UWB超宽带，可实现无感解锁

特斯拉 FSD V14 Lite 将上线，老车主率先体验

亚冠激烈冲突！米内罗点球破门，10人互相推搡，柔佛门将贴脸怒吼

IU的脸，真的有自己的时间线

特朗普签署行政令对进口中型和重型卡车征收25%关税

三幅字画涉刑被拍卖其中徐悲鸿＂奔马图＂起拍价4762万

八位堂推出“任天堂 NES 游戏机 40 周年”主体限定外设硬件

企业在自然保护区建研学机构烂尾7年致百亩农田荒废

宗馥莉辞职内幕曝光，大女主的复仇之路，如何伤了娃哈哈？

塞纳河“上岸”不易：20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司