关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3167人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄子韬徐艺洋“尼克朱迪”模仿秀

今古深日报 浏览 2826

超离谱判罚!米内罗进球被吹,马纳法染黄,媒体人:亚冠意义何在

奥拜尔 浏览 3144

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 3426

工信部曝光9台“狠角色”新车:A6L 3.0T功率提升,奇瑞五菱新作

蜗牛车志V 浏览 2709

聂卫平告别仪式:兰莉娅变化大

古希腊掌管松饼的神 浏览 2260

连券商首席都被妈妈“科普”,商业航天太火了

财通社 浏览 2297

赵丽颖都救不了!央视新剧《逍遥》播出被吐槽

烈史 浏览 1997

商品交易巨头火上浇油:Mercuria被爆曾计划从LME仓库提取超4万吨铜

华尔街见闻官方 浏览 2838

或命名为T1T 奇瑞全尺寸SUV谍照曝光

车质网 浏览 2207

一加 15 手机现身中国电信终端产品库,10 月 27 日发布

IT之家 浏览 3260

一句话,干掉586亿

深蓝财经 浏览 4136

白百何疑开撕王传君!曝沪圈要求文晏给男方撕奖,白百何发文内涵

萌神木木 浏览 2975

83岁的何享健再度冲击IPO,美的系第十子即将诞生?

BT财经 浏览 4089

牛弹琴:香港经历不眠之夜 对罕见火灾有两个"没想到"

北京日报客户端 浏览 32530

新奥能源研究院院长刘敏胜:探索球形环氢硼聚变技术,开发商用聚变能源

红星新闻 浏览 3508

聂远不让女儿雨天上学,黄磊女儿满口错别字,怪不得星二代要进圈

萌神木木 浏览 2873

全网泪目!《马踏樱花》一夜刷屏

手工制作阿歼 浏览 2853

朱元璋变脸 研究学者:"鞋拔子脸"异像并非其真实面容

环球网资讯 浏览 19999

增重三十斤拿下影帝,男演员多一位“橡皮人”,他几斤几两?

仙女事件簿 浏览 3332

反转!曝何超莲婚礼是亲妈出钱,窦骁不愿签婚前协议,所以没领证

萌神木木 浏览 3247

美媒:特朗普已听取关于军事打击伊朗方案的汇报

新华社 浏览 2279
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1