关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3479人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高市在日本青年群体中获极高支持率 专家解读

北京日报 浏览 18904

今年靴子怎么穿?这个思路可以解决一半冬日搭配

黎贝卡的异想世界 浏览 3057

湖北武汉加速构建人形机器人产业发展生态

新华社 浏览 3565

小鹏汽车增程车型矩阵加速落地 构建"纯电+增程"双线格局

海南车小二 浏览 3095

不少老人宁愿挨冻也不敢开暖气,让人痛心!河北农村取暖问题,不能再耽搁了

每日经济新闻 浏览 2642

专访刘莘教授:AI时代更应该阅读经典,警惕“智力外包”|“书”适圈

封面新闻 浏览 808

万宁突然关闭内地线上线下全部门店,连锁巨头这是怎么了?

江瀚视野 浏览 2946

小米、小鹏拿证,多家车企晒L3自动驾驶牌照!司机离解放双手还有多远?

时代周报 浏览 2853

胜利就是最佳礼物,B费:为曼联出战300场最好的庆祝方式

懂球帝 浏览 2985

唐嫣罗晋恩爱人设崩塌了!夫妻常年两地分居,全靠女方一家带娃

萌神木木 浏览 3810

重回“ABB”,一汽奥迪逆势突破背后的“价值竞争”

桑之未 浏览 2547

马克龙:有必要将伊朗停火协议扩展到黎巴嫩

上观新闻 浏览 1024

有大梁更能装也智能 奇瑞威麟R08 EV上市12.78万起

网易汽车 浏览 2412

连续三个月创历史新高 蔚来公司10月新车交付首超4万台

网易汽车 浏览 3446

一觉醒来霍尔木兹传大消息 伊被指启动通行管理新机制

中国基金报 浏览 13726

澳大利亚刚插手台海就收噩耗 中方杀鸡儆猴停特殊待遇

时时有聊 浏览 17818

美军曾复刻马杜罗住宅进行破门演练 动手第一步是断电

红星新闻 浏览 10292

雪花丨诗一首

正经社 浏览 2978

老兵们打赢了第一仗,但真正的战争是整个赛季

体坛周报 浏览 3609

俄大使:马杜罗夫妇被控制时身边没人

扬子晚报 浏览 2574

俄黑海港口设施遭袭,乌军证实实施火力打击

潇湘晨报 浏览 3423
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1