爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

荷兰限制与美...

仅上任两个月...

亮出“小红卡...

烂番茄68％...

光大银行董事...

河南一村委会...

维拉本赛季禁区外进球冠绝英超，甚至比禁区内进球还多

异构系统实现大模型推理加速与成本优化能力提升

特朗普突然中止与加拿大贸易谈判加元汇率直线跳水

通航城市超260个我国四大世界级机场群建设初具规模

弗里克：来巴萨后我变了，我也不希望孙子看到爷爷是这样的

延世大学团队发现LLM思维路径的＂均匀信息密度＂密码

国外产子，知三当三，江疏影传闻哪个是真的

“小度”“小爱”能当AI老师吗？小小“数字原住民”出现“幼儿主体性”危机

650km续航广汽埃安AION RT焕新款9月22日上市

蔚来乐道发布换电站电池翻倍计划

6.4万的特斯拉FSD将成为历史！

29岁国乒老将临危受命？淘汰黄友政状态回暖锁世界杯后冲世乒赛

仝卓表弟获救了！照片曝光头发已被剃光，从求助到救出不到24小时

张萌携老公现身演唱会，被拍后导演紧急切屏

德约科维奇发布退赛声明令人担忧，身体康复状况存疑

台外事部门负责人被指9月曾宴请美官员美方无人到场

媒体：一天内两个危险举动再度揭示了日本的危险性

长安抄底现代工厂，自主瓜分合资资产成新趋势

标普ESG得分跻身行业前20%，顺丰同城以ESG实践推动行业高质量发展

张慧贤指责万鹏“当小三当惯了”万鹏方严正声明

豆包手机助手宣布将部分调整AI操作能力

目送阿卡大满贯全四强，德米纳尔第七次卡八！

一个手机壳卖200，这家深圳公司靠什么掏空老外钱包？

新疆官方：西尔扎提右膝前交叉韧带部分撕裂，赛季报销