爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

农妇收玉米时...

美军演练与解...

NVIDIA...

张朝阳缅怀杨...

阔腿裤失宠了...

71岁老太，...

刘嘉玲好敢说！问柯淳不谈恋爱生理没需求么？柯淳回答堪称教科书

联想moto X70 Air手机现身：5.3mm超薄机身+159g轻盈重量

2025秋冬大衣流行趋势

3人救落水女子4人均遇难救援人员：水情复杂还有旋涡

特朗普：俄方知道美国在俄海岸附近部署核潜艇

太子集团创始人陈志被遣送回国外交部回应

德甲身价涨幅榜：奥利塞暴涨3000万第1，阿德耶米、于帕上榜

谁说冬天不能穿裙子？照着搭美出新高度

尴尬的是最后输了，狄龙回喷骂自己垃圾的热火球迷：看看比分，f**k

司晓迪怒斥周奇脚踏两条船，近期还约她见面，网友喊话向涵之快跑

美业数字化再添新助力成都美博会AI美业工具受追捧丨新经济观察

斯坦福大学等发布：AI助手在企业政策执行上＂偏科＂得如此严重

合肥夜空上演“硬核”科技告白：1024架无人机点亮AI愿景

A股天然气板块拉升，霍尔木兹海峡关闭引全球气价预警

高市早苗曾叫嚣台湾有事日本必入

「AI新世代」印奇掌舵阶跃星辰背后：一部中国AI的“实干派”进化史

伊朗革命卫队呼吁为真主党领导人被杀“复仇”

库里南也绷不住了！四年销量崩一半：中国土豪为什么不爱劳斯了？

以称打死两名越过加沙地带“黄线”人员

普京：“海燕”核动力巡航导弹完成“决定性试验”

普京酝酿的“重大行动”，会给中国带来机遇？

＂巴铁＂越打越猛阿富汗塔利班致电北京中方斩钉截铁

佛罗伦萨，不只是法比安。《民族报》：“准备好为托尔斯泰特报价”

加沙城民众生计仍然艰难天气与蚊虫也成威胁