关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3251人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔚来萤火虫上市半年多了,现在卖得怎么样了?

车轮生活 浏览 3077

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 3221

黎巴嫩总统谴责以军空袭贝鲁特

上观新闻 浏览 2927

美国纽约市长选举进入"最后冲刺":印度裔候选人领跑

红星新闻 浏览 8910

蔚来四季度盈利的底气,到底是什么?

21世纪经济报道 浏览 3314

新华社权威快报|我国生成式人工智能用户规模超5亿

新华社 浏览 3398

“大衣+毛衣”今年冬天又火了,这样穿时髦又高级!

LinkFashion 浏览 2294

白宫:万斯巴基斯坦之行已被取消

新华社 浏览 324

美澳关键矿产协议被解读为旨在"对抗中国" 外交部回应

澎湃新闻 浏览 7582

特斯拉撞树后打不开车门 5人被困燃烧的车内身亡

每日经济新闻 浏览 3235

鹈鹕创队史纪录大胜独行侠 状元PK锡安27分弗拉格21+7+8

醉卧浮生 浏览 1325

工信部曝光9台“狠角色”新车:A6L 3.0T功率提升,奇瑞五菱新作

蜗牛车志V 浏览 2709

古特雷斯:联合国将全力支持加沙停火协议

环球网资讯 浏览 3460

百万粉丝博主“稚晖君”在账号发介绍公司机器人视频,引发监管问询!公司紧急回应

红星资本局 浏览 2307

决战星期四:懂球帝6-3战胜超越足球俱乐部

懂球帝 浏览 3055

睡衣穿对了,连躺平都带着高级感

时尚COSMO 浏览 1953

跨年档、抓总统、何晴、南京博物院、斩杀线等

电影最TOP 浏览 2069

50、60岁的女人就要这么穿!自然老去,不扮嫩反而更美了

静儿时尚达人 浏览 3432

美军机沿伊朗边界飞行 伊朗寻求外交支持

新华社 浏览 2378

章子怡百花晚会偶遇30年好友曾黎

泪满过眼 浏览 2147

她的发型又火了!年底做头发,不妨从这篇找找灵感

黎贝卡的异想世界 浏览 2464
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1