关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者3237人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杜兰特:谢泼德站了出来,我甚至无法形容他今晚有多么出色

懂球帝 浏览 2601

22点至8点严禁催收、电话最多6次/天,消费贷催收新规划重点

上观新闻 浏览 2095

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 浏览 3174

全新比亚迪SHARK6亮相 1000km综合续航+L2级智驾

华庭讲美食 浏览 3075

太空“4S店”要开张:Starfish验证“单眼”卫星交会PRO操作

IT之家 浏览 2747

首负日本!巴西遭36年之耻 安帅气炸直接离场+判头号罪人“死刑”

风过乡 浏览 3539

女子遭家暴驾车逃跑致丈夫身亡获刑11年 已上诉称无罪

红星新闻 浏览 8039

利昂-贝利替补出场20分钟后被换下,赛季未过半已经受伤三次

懂球帝 浏览 2609

32岁黄子韬径山寺祈福,生图脸肿嘴黑金发毛躁,走路抻脖毫无星味

洲洲影视娱评 浏览 1504

普京:俄方已无兴趣等待乌从其占领区撤出

每日经济新闻 浏览 2534

猪肉消费大变革!爱尔兰猪肉抢占新赛道

餐饮老板内参 浏览 2569

打通置换堵点!上海放大招:政府启动二手房收购

国际金融报 浏览 2091

特朗普呼吁立即停火 遭俄方坚决驳斥

财联社 浏览 3381

"最强大脑"齐聚临港 上海正搭建未来科学共同体

看看新闻Knews 浏览 3318

福建舰入列在即 8万吨排水量成世界最大常规动力航母

极目新闻 浏览 9453

大S墓碑没自己名字,且一个中文都没有,具俊晔立深情人设引热议

扒虾侃娱 浏览 2082

eSIM来了,但还在来的路上

北京商报 浏览 3340

一夜之间,矛盾又升级了!

米筐投资 浏览 3402

绿军逆转险胜魔术双方6人20+对攻 布朗27分班凯罗28+6

醉卧浮生 浏览 3091

大衣,白色的更优雅不凡!

Yuki女人故事 浏览 2020

宋慧乔怎么不会老啊?

时尚COSMO 浏览 2352
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1