关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元3445人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

提供两种动力 日产NX8有望于3-4月上市

车质网 浏览 2270

唐嫣罗晋恩爱人设崩塌了!夫妻常年两地分居,全靠女方一家带娃

萌神木木 浏览 3469

隆源股份历史合资身份或存涉税风险,寄售库存商品监盘比例竟不足1%,国金证券是否尽责?|读懂IPO

时代周报 浏览 2396

光模块双雄:高增长审美疲劳 高估值面临压力

21世纪经济报道 浏览 3190

奔驰纯电轿跑售价不足25万起!外观动感,搭800伏架构,续航866Km

小史谈车 浏览 2423

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro 浏览 2097

上千家美国企业排队"退税" 尴尬的美国关税战试图挽尊

第一财经资讯 浏览 38059

特斯拉成简配“鲶鱼”,中国品牌如何应对?

百姓评车 浏览 3249

政府关门三周美公务员排长队领救济 很多人不想"露脸"

每日经济新闻 浏览 12233

《数据周报88》:70大中城市房价全线下跌

智本社 浏览 3185

阿联酋突然退出欧佩克 被视为是"特朗普的一次胜利"

红星新闻 浏览 10516

勇士124-106轻取鹈鹕,库里11中2仅9分,穆迪8记三分

懂球帝 浏览 3128

新一代宝马X5冬测曝光,智能座舱再升级,真要走年轻路线了?

車解读 浏览 2492

【进博时刻】每天训它几百遍,这份枯燥的工作并非冷冰冰

上观新闻 浏览 2646

伊朗外长:伊朗做好了应对一切可能的准备

环球网资讯 浏览 2245

博纳老板于冬被澳门赌场追债400多万

严肃八卦 浏览 1478

春晚阵容曝光!十年来最强的演出阵容

阿纂看事 浏览 2105

郭晓冬夫妇赶农村大集!程莉莎啃鸡腿不忘撒娇

裕丰娱间说 浏览 2074

曝李金铭怀孕待产!直播账号已停更近半年,曾卷入知三当三风波

萌神木木 浏览 2418

张雪峰多平台账号被封28天后解禁 直播时多次感谢网友

极目新闻 浏览 11885

特朗普被指非常重视"和平峰会" 以色列哈马斯或不参加

环球网资讯 浏览 7293
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1