关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013132人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

云南省农科院征集新品种月季名 网友二舅的名字被采纳

上游新闻 浏览 29368

斯基拉:尤文正在关注摩纳哥20岁的法国中卫马维萨

懂球帝 浏览 3133

拜仁高层:希望凯恩长期为拜仁效力

体坛周报 浏览 4058

王祖贤隐退真相曝光!王晶坦言两点

妙知 浏览 3347

黄磊宣传乌镇用力过猛!戏剧节变夜店蹦迪现场,明星狂欢惹争议

萌神木木 浏览 3393

日媒:如何就美国突袭委内瑞拉表态 高市陷入两难

参考消息 浏览 9896

米体:尤文自2019年起已完成四次增资,总额接近10亿欧

懂球帝 浏览 2956

伊姐周六热推:电视剧《寻雪迷踪》;电视剧《秋雪漫过的冬天》......

伊周潮流 浏览 2251

主力车增配降价,丰田销量明显上涨,能带动日系车反攻吗?

路咖汽车 浏览 3982

闫学晶和儿子接连道歉 儿子连说两遍"娘的错儿子担"

北京日报 浏览 12765

项立刚再批罗永浩!为搞流量煽动舆论,被封就是活该

雷科技 浏览 2573

媒体:卡尼访华在即 耳边吹风"针对中国"的又来了

澎湃新闻 浏览 7296

官宣!这座“一线”省份,继续力挺省会

西部城市 浏览 3311

NAVEE 亮相 CES 2026:以高性能智能出行产品,开启户外生活新场景

雷峰网 浏览 2375

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

澎湃新闻 浏览 30994

上海男子出门频频裸露臀部太辣眼睛 女邻居崩溃了

看看新闻Knews 浏览 34557

联想moto X70 Air手机现身:5.3mm超薄机身+159g轻盈重量

IT之家 浏览 3533

马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

上观新闻 浏览 3138

与宾利添越是"亲兄弟" 大众途锐3.0TSI锐臻版上市

隔壁说车老王 浏览 2228

不计成本的超跑梦想:Ascari Ecosse的传奇往事

老爷车 浏览 2745

秦岚自曝身体出现情况,治疗结果不尽人意

乡野小珥 浏览 1665
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1