关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2650人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

晚点独家丨千问 app,阿里要怎么做中国的 “ChatGPT”

晚点LatePost 浏览 3355

吉利大战欣旺达:江湖不是打打杀杀,是人情世故

诗与星空 浏览 2840

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

每日经济新闻 浏览 6106

十年前,我们万万想不到

牛弹琴 浏览 2860

有种的冲这儿打!

电影最TOP 浏览 3693

线下活动|| 在广州的春天里见个面吧

黎贝卡的异想世界 浏览 1652

足球:雷恩成为欧洲五大联赛第四大球员输送俱乐部

绿茵情报局 浏览 2649

32岁章泽天又有新动作!不愿当家庭主妇

娱乐圈圈圆 浏览 2647

高市早苗APEC会议期间与台湾地区人员会面 国台办回应

澎湃新闻 浏览 8796

全球第一大女主,让内娱彻底红了眼

独立鱼 浏览 2656

应采儿携子伦敦地铁,13岁Jasper摘牙套十分帅气

凉湫瑾言 浏览 1994

追觅办演唱会当年会撒贝宁主持 李克勤、张信哲等献唱

极目新闻 浏览 100940

伊朗外长在敏感时刻访问中国 美国最不愿看到局面发生

军武咖 浏览 13687

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

差评XPIN 浏览 2461

搭载V8混动系统 丰田全新跑车将12月5日发布

车质网 浏览 2434

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 3808

2025年首例被北交所暂缓审议的企业出炉 永大股份上市缘何待考?

叩叩财讯 浏览 3312

此前还有互殴和打队长,盖伊是第三个因打队友染红的英超球员

懂球帝 浏览 3193

韩国延世大学AI新突破:让视频生成快65%的"拼配"技术

科技行者 浏览 2726

配备大尺寸中控屏 奇瑞T1Q内饰谍照曝光

车质网 浏览 3227

李昀锐和孟子义恋情爆热搜,新剧直接无人在意了

陈意小可爱 浏览 3773
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1