关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3449人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

极氪8X车型最新谍照曝光,展示尾灯造型

IT之家 浏览 2549

中科大团队发布Agent-R1:让AI智能体像人类一样学习和成长的框架

科技行者 浏览 2236

杭州一区拟推出“养龙虾”十条!支持OpenClaw&OPC-STC发展

都市快报橙柿互动 浏览 1516

准美术生持枪闯海湖庄园被击毙:来自特朗普铁粉家庭

新民周刊 浏览 37912

女婿宣布退出华纳收购 特朗普突然改口

澎湃新闻 浏览 13243

活塞99-98险胜老鹰,杜伦21分11板,杰伦-约翰逊空砍29+13

懂球帝 浏览 2819

今年春天一定要拥有的针织,这样穿减龄又好看!

LinkFashion 浏览 1657

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 4155

47岁刘烨老来俏,让儿子诺一尴尬了?

草莓解说体育 浏览 2776

双门双座+纯电后驱 全新smart #2将于2026年发布

网易汽车 浏览 2603

福建舰全体官兵列阵 送上硬核祝福

央视军事 浏览 1780

长春亚泰热身1比0击败定南赣联 球队结构逐步成型

体坛周报 浏览 2071

高市早苗APEC会议期间与台湾地区人员会面 国台办回应

澎湃新闻 浏览 8492

陈涛:我们最后四轮赛程可以用地狱级来形容,已经没有退路了

懂球帝 浏览 3498

今年冬天一定要拥有的6件衣服,谁穿谁好看!

LinkFashion 浏览 2738

《人之初》大结局,重排演员演技:萨日娜第五,徐百慧第二

娱乐圈笔娱君 浏览 2391

香港浸会大学推出AlphaApollo:AI实现协同推理突破

科技行者 浏览 3237

72岁患癌老人办生前告别式 四十多名宾客来到现场发言

极目新闻 浏览 12217

男子疑心梗住院被急诊医生误诊 转入普通病房后身亡

大风新闻 浏览 13073

又一中将在俄境内被炸死 俄方或实施对等定点清除行动

新民晚报 浏览 30094

兰博基尼Murciélago 无可争议的“大佬级”超跑

CLauto酷乐汽车 浏览 2266
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1