爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

匿名“欢乐马...

泽连斯基新年...

两死者死于家...

连Win10...

破局“影子A...

《求是》杂志...

对阵纳什维尔3球1助，梅西达成连续17年上演帽子戏法成就

于和伟逆袭的路上，藏着这样的一个女子

贺娇龙被安葬在父亲身边昭苏居民：她对昭苏功不可没

新款小鹏G9申报图曝光自研图灵芯片上车

她是半个娱乐圈的“妈”，丈夫与她相爱40年

避险情绪弥漫比特币12月开局闪崩

变阵冲决赛！U23国足VS越南首发：狂换6人向余望先发王钰栋替补

卷首语 | 在动物园散步才是正经事

拉齐奥新闻 / 拉特科夫缺乏出场机会，因莫比莱谈离队：早间新闻汇总

当一个57岁的女人，决定从零开始

北京这一天，陈晓秒了罗一舟，短剧男主和长剧男主一眼看出差别

卢拉：不希望美国对委发动“地面入侵”

杠杆资金流入北方铜业股价创28年新高

特朗普发文宣称：10项停战条款是“假新闻”

国资券商整合收官！新国盛证券承接所有业务，原主体完成工商注销

“开门红”同比增长27% 零跑汽车1月交付32059台

“强制接管”，西方这是明抢了？

深圳水贝“杰我睿”最新进展：有消费者收到兑付方案，20g黄金+9000多元余额，兑付本金4856元

北京正探索AI赋能教育，不同学段精细化考虑！市教委详解

马克龙：首批法国士兵已抵达格陵兰岛

马斯克圣诞礼物：X上所有图片都能一键AI改图了，全球画师暴怒

鲁本-迪亚斯：经验告诉我们，如果不在最佳状态就无法夺冠

用AI布阵遭解雇？前西班牙队主帅：假的，我没这么干

小S金钟奖获奖，坦言无助的时候想打电话给大s