关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3169人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2025 全球十大工程成就发布:DeepSeek、人形机器人等入选

IT之家 浏览 3603

稳坐全国第二,芯片巨头,44亿新动作!

飞鲸投研 浏览 1954

浙媒:体育局负责人介绍,浙江FC改名一事并未提上日程

懂球帝 浏览 2144

弗兰克:球队的进攻还需要提升;希望在所有赛事都具有竞争力

懂球帝 浏览 3441

沃什任命恐推迟?特朗普政府请求法官重新考虑撤销对鲍威尔传票的决定

华尔街见闻官方 浏览 1284

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro 浏览 3638

聚焦进博|一个巴西律师的“新上海故事”

国际金融报 浏览 3122

AI泡沫争议再起!多位顶尖大咖PK,这次有何不同?

21世纪经济报道 浏览 3061

2025款比亚迪海狮05 EV完全评价报告

车质网 浏览 3228

贵州茅台多款产品出厂价降价,最高下调1990元,销售端也有降价

红星资本局 浏览 2369

郑丽文要让国民党"羊群变狮群":不是反咬一口而已

海峡导报社 浏览 9179

华为的智驾神话,要被打破了吗?

电动势 浏览 2328

26款奔驰S级入门版不足90万起!外观豪华大气,搭载2.5T+48伏轻混

小史谈车 浏览 2286

或预示未来设计风格 现代汽车发布全新硬派SUV概念车

乐选爱车 浏览 2743

今年最流行的5条半裙,怎么搭都好看!

LinkFashion 浏览 1458

缅甸军方两次爆破KK园区:用了无人机 浓烟弥漫数分钟

每日经济新闻 浏览 8812

13.99万元起 深度解读深蓝L06三大黑科技

第五冲程 浏览 3251

廷贝尔:联赛杯决赛也许能成为争冠动力;哈弗茨不是安静的人

懂球帝 浏览 2050

商务部公告附件首次改为wps格式,金山办公的信创未来该咋看?

江瀚视野 浏览 3415

李亚鹏与娇妻离婚!女方近期动态充满伤感,晒落泪照直言心情复杂

萌神木木 浏览 3489

告别羽毛球自由,中产迷上匹克球

虎嗅APP 浏览 3440
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1