关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3511人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特斯拉进入平价棋局 不足4万美元的新车又是鲶鱼?

禾颜阅车 浏览 3742

联合国特使就也门问题与胡塞武装及阿曼官员会谈

国际在线 浏览 2720

特斯拉前全球销售主管爆猛料

电动知家 浏览 3024

今年冬天流行的“倒三角”穿法,时髦又高级!

LinkFashion 浏览 2731

邵佳一:我们应该配得上三分,在休息室里我祝贺了队员们

懂球帝 浏览 3708

加兰:本希望在场上帮助马竞更多,会找一天回去告别

懂球帝 浏览 2748

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 3866

能否复刻N7的成功?日产N6申报图现身

Nice好车 浏览 3753

京东卖车翻车:汽车电商为何屡战屡败?

天天汽车 浏览 3213

人工智能时代如何深化跨区域知识产权保护协作,嘉定这场论坛进行了探讨

上观新闻 浏览 2931

俄白联合军演两名美军军官"意外现身" 白俄防长:可随意参观

环球网资讯 浏览 4465

特朗普甩开中国单干当"和事老" 意外遭泰国硬怼:失望

新民周刊 浏览 8563

年度总结|| 2025年学会的8件小事

黎贝卡的异想世界 浏览 2784

古二录音被忽略的细节!秦雯闺蜜歧视妇女,业内编剧还在嫌弃观众

萌神木木 浏览 3416

王传君拿下东京电影节影帝!撕奖过程太精彩,连坑两位中国女星

萌神木木 浏览 3510

今年冬天,流行穿得“花”一点!

LinkFashion 浏览 3161

沃勒尔:德国队首发门将仍存在变数,特狮必须稳定上场才行

懂球帝 浏览 2920

手握200亿基金,寻找想打造品类第一的创业者

创业家 浏览 3615

谷爱凌穿泡泡机,肯豆cos胜利女神,这届Met Gala的赢家到底是谁?

LinkFashion 浏览 198

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 3734

肖战又出金句!“自然人”一词引爆网络

小椰的奶奶 浏览 214
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1