关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元3766人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

凯塞多：之前没意识到自己的进球能力，现在会尝试并靠近禁区

懂球帝浏览 2445

产检时一切正常小孩出生后却畸形母亲时隔一年多投诉

潇湘晨报浏览 8610

特朗普挥关税大棒强索格陵兰岛冯德莱恩正式回应

新华社浏览 6874

精彩推荐

媒体:美伊冲突似要再起美军机在波斯湾遭遇紧急情况

新民晚报浏览 13395

40岁童瑶与42岁蒋欣：气质对比很明显

大眼妹妹浏览 3530

长城汽车10月销售新车14.31万辆同比增长22.5%

网易汽车浏览 3540

“长安系”再落关键子：王辉亲掌阿维塔董事长

网易汽车浏览 4539

媒体：美以对伊朗战争持续不了太久 G7成员们也受不了

新民周刊浏览 28350

美顶级战机制造商干涉台湾被大陆制裁进入＂慢性死亡＂

博览历史浏览 6142

李书福罕见发声，吉利豪掷20亿“苦练安全内功”

华山论剑浏览 3077

AI狂热不敌冷峻现实：企业下调AI代理预期，实现全自动化仍需数年时间

华尔街见闻官方浏览 3382

奥迪A6L e-tron四驱版公布双电机爆发405 kW

网易汽车浏览 3806

2025年热销的十款新能源车卖得好真不是靠吹牛？

汽车天涯浏览 2559

缔造仙女梦的人，去了天堂继续缝制星光✨

黎贝卡的异想世界浏览 2612

员工超长时间如厕被开除单次最长4小时辩称护理痔疮

环球网资讯浏览 7051

中国人寿前三季归母净利润超1678亿元，高基数基础上同比增60.5%

证券市场周刊浏览 3612

E句话| 这俩的婚纱照，还挺甜？

仙女事件簿浏览 3713

美伊26日谈判在即是否对伊朗动武：白宫先内讧了

每日经济新闻浏览 2005

春季穿衣千万别太暗沉！试试蓝白配色、选基础款裤子，大方得体

静儿时尚达人浏览 473

迪士尼将对OpenAI进行10亿美元股权投资

第一财经资讯浏览 2547

小米汽车超级工厂供应商，斯坦德机器人赴港IPO|港E声

时代周报浏览 2726

车企的零自燃宣言，谁才是真安全？

百姓评车浏览 3572

欣旺达更新港股招股书：去年前9个月净赚14亿，动力电池业务进入全球前十

车东西浏览 2421

一图看懂｜朝鲜庆祝空军成立80周年展示了哪些新式武器

澎湃新闻浏览 3019

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1