关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2330人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

又爆了一部新片,他今年太火了

独立鱼 浏览 3861

卢浮宫盗贼没偷6000万美元钻石 其它被盗藏品或被熔化

极目新闻 浏览 9184

全球连线|权威访谈:携手迈进更加美好的“数智未来”——访世界互联网大会副理事长高锐

新华社 浏览 3078

邮报:流浪者正考虑让麦克马斯特临时带队,等待穆斯卡特

懂球帝 浏览 3431

在南海坠毁的美军机比F-35还贵 单价1亿美元

参考消息 浏览 2414

山西老人智力受损 上海警察因撞脸改口音假扮儿子12年

封面新闻 浏览 8172

梁靖崑:和老婆秀恩爱被围观!

冷峻视角下的世界 浏览 2361

哈兰德:我对吕迪格一直很尊重;确实很想念贝林厄姆

懂球帝 浏览 2822

蔚来四季度盈利的底气,到底是什么?

21世纪经济报道 浏览 3314

门多萨:为马竞效力是儿时梦想,身边队友小时候在电视上看过

懂球帝 浏览 2044

热刺遭遇穆罕默德·库杜斯新的伤病挫折

绿茵情报局 浏览 751

地区战争风险加剧 哥伦比亚总统重批美国“侵略拉美”

环球网资讯 浏览 3485

武契奇称"无法保证不制裁俄罗斯" 俄方回应

参考消息网 浏览 8231

三只松鼠3个月两次调价,部分坚果礼拟从明日起出厂价上涨

红星资本局 浏览 2279

她们的人生牛仔裤,链接都在这了

黎贝卡的异想世界 浏览 57

卫衣+百褶裙,初秋最韩系穿搭,又美又撩人!

Yuki女人故事 浏览 3216

重庆:对企业面向工业领域研发垂类大模型、智能体 给予最高200万元奖励

证券时报 浏览 1954

皱着眉头在看《诉讼女王》......

时尚COSMO 浏览 2116

巴铁用中国武器击落阵风后,印度信心崩溃

浏览 6888

被指住宿环境差 广东一高校回应:没那么夸张 是误会

极目新闻 浏览 3537

荣耀 MagicPad3 Pro 13.3 英寸平板上架官网

IT之家 浏览 3887
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1