关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者3130人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白银飙涨创历史纪录!已无可用的流动性!

国际金融报 浏览 3475

增长神话暂停,理想“尖子生”光环失效?

Tech星球 浏览 2709

十年前的百度,聚拢了硅谷最杰出的天才,每个都比姚顺雨耀眼……

字母榜 浏览 2171

首艘美国船被罚之际 特朗普调2艘航母部署中国周边

现代小青青慕慕 浏览 6962

女孩引产遭拒生女婴被医生"送人" 抱养方称捡弃婴露馅

澎湃新闻 浏览 9834

巴总理称"将7架印战机炸成残骸" 印方激烈反驳

澎湃新闻 浏览 5072

重要信号,楼市将变!

博闻财经 浏览 2722

交通标志设置不合理致5814次"被违章" 当地:重新设置

封面新闻 浏览 8203

卡里克向拉爵承诺带曼联重返欧战!赢曼城秘诀曝光,弗爵为之鼓掌

罗米的曼联博客 浏览 2302

“恐怖电影成真” 美国男子盗窃人骨公开售卖

澎湃新闻 浏览 7619

特朗普行政令降低大麻管制等级,投资者“卖事实”,大麻股普跌

华尔街见闻官方 浏览 2654

委内瑞拉武装部队宣布增招士兵5600名

界面新闻 浏览 2769

赖清德声称打造所谓"台湾之盾"防空系统 国台办回应

界面新闻 浏览 3494

星际彗星 3I / ATLAS 亮度异常激增,科学家困惑不解

IT之家 浏览 3187

财经观察:担忧产业短板,欧盟自查“经济瓶颈”

环球网资讯 浏览 3446

DNA双螺旋结构发现者詹姆斯・沃森去世

第一财经资讯 浏览 2555

柴麒敏:绿色低碳产业将释放约30万亿元新增投资

中国企业家杂志 浏览 2244

美媒承认:乌重镇即将被攻克

环球时报国际 浏览 3169

“十五五”规划建议:共有15个部分、61条,分为三大板块

国是直通车 浏览 3281

足总杯首发出战,塞门约迎来代表曼城的首场比赛

懂球帝 浏览 2334

麻省理工学院发明“可注射”脑机芯片,有潜力用于治疗老年痴呆症

IT之家 浏览 2987
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1