关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2024人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

60岁老人猥亵7岁女童:将手伸入女童的生殖器官

中国新闻周刊 浏览 8059

女子应聘疑遭老板性暗示 涉事企业法人:出于工作需要

极目新闻 浏览 8529

特朗普试图重建长期关税壁垒 民主党将阻止

华尔街见闻官方 浏览 1745

杨振宁17年前的演讲发人深省:争夺国际话语权,需要中国人的创新精神

上观新闻 浏览 2925

里程碑!刘铮生涯总抢断超越西热力江,升至CBA历史第13位

懂球帝 浏览 2201

图片报:塔踩到了斯塔尼希奇此前受伤的右脚,使其退出训练

懂球帝 浏览 2061

农村危房翻建审批咋这么难?人民日报记者实地调查

上观新闻 浏览 2630

国信策略:抢占科技发展制高点

网易财经 浏览 3385

美国国会的监督机构对联邦住房金融管理局局长Pulte展开调查

华尔街见闻官方 浏览 2693

陈都灵上台领奖,白鹿没鼓掌惹争议,两家疑似因《长月烬明》结怨

萌神木木 浏览 2620

黄金、白银价格暴涨暴跌,投资者要警惕暴富“陷阱”,戒除豪赌心态

时代周报 浏览 2107

前央视主持人水均益直播 额头顶"中国人"纸条否认移民

极目新闻 浏览 8714

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 9832

浙媒:体育局负责人介绍,浙江FC改名一事并未提上日程

懂球帝 浏览 2144

卢拉:不希望美国对委发动“地面入侵”

参考消息 浏览 3052

质选车:丰田RAV4荣放以全球品质再续辉煌

车质网 浏览 2622

房产中介兼职送外卖:除了干中介 自己什么都不会

经济观察报 浏览 9145

配激光雷达 新款比亚迪海豹06 EV申报图曝光

车质网 浏览 2341

芒果这部剧,让人读懂“太平”二字的千钧重

娱乐圈笔娱君 浏览 2152

华为智慧屏新品MateTV Max今日预售,110英寸64999元

IT之家 浏览 2963

特朗普开价10亿美元招募 被指试图用新机构替代联合国

极目新闻 浏览 6645
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1