关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3269人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新款小鹏G9申报图曝光 自研图灵芯片上车

网易汽车 浏览 3444

她是半个娱乐圈的“妈”,丈夫与她相爱40年

说历史的老牢 浏览 3941

避险情绪弥漫 比特币12月开局闪崩

北京商报 浏览 2785

变阵冲决赛!U23国足VS越南首发:狂换6人 向余望先发王钰栋替补

我爱英超 浏览 2378

卷首语 | 在动物园散步才是正经事

时尚COSMO 浏览 5239

拉齐奥新闻 / 拉特科夫缺乏出场机会,因莫比莱谈离队:早间新闻汇总

绿茵情报局 浏览 769

当一个57岁的女人,决定从零开始

Yuki女人故事 浏览 2388

北京这一天,陈晓秒了罗一舟,短剧男主和长剧男主一眼看出差别

娱乐圈笔娱君 浏览 2931

卢拉:不希望美国对委发动“地面入侵”

参考消息 浏览 3074

杠杆资金流入 北方铜业股价创28年新高

21世纪经济报道 浏览 4110

特朗普发文宣称:10项停战条款是“假新闻”

吉刻新闻 浏览 764

国资券商整合收官!新国盛证券承接所有业务,原主体完成工商注销

21金融圈 浏览 2071

“开门红”同比增长27% 零跑汽车1月交付32059台

网易汽车 浏览 2075

“强制接管”, 西方这是明抢了?

观察者网 浏览 3491

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻 浏览 2148

北京正探索AI赋能教育,不同学段精细化考虑!市教委详解

北京商报 浏览 2173

马克龙:首批法国士兵已抵达格陵兰岛

界面新闻 浏览 2287

马斯克圣诞礼物:X上所有图片都能一键AI改图了,全球画师暴怒

机器之心Pro 浏览 2004

鲁本-迪亚斯:经验告诉我们,如果不在最佳状态就无法夺冠

懂球帝 浏览 2633

用AI布阵遭解雇?前西班牙队主帅:假的,我没这么干

体坛周报 浏览 2287

小S金钟奖获奖,坦言无助的时候想打电话给大s

韩小娱 浏览 3404
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1