关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者3648人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梅婷首公开女儿闺房,这才是真正的富养

草莓解说体育 浏览 1750

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 3699

张馨予减肥致体质差,170身高仅百斤两月发烧三次

把喜欢都给他 浏览 2360

特朗普呼吁立即停火 遭俄方坚决驳斥

财联社 浏览 3717

44岁TVB男星再当爸,港姐太太二胎诞下小儿子

TVB剧评社 浏览 3274

曼晚:回曼市的路上卡里克一直在看回放,今天他们看U21比赛

懂球帝 浏览 2523

亚洲最美面孔,还是救不了这片

独立鱼 浏览 3091

“塌房失败”的李雪琴给所有人上了一课

乡野小珥 浏览 3313

最大纯电续航达335km 智己LS8官图发布

车质网 浏览 2714

OpenMind 开源全球首个“AI 原生”机器人系统 OM1 Beta

IT之家 浏览 4467

费迪南德:梅努抗压能力极强;卡里克的工作重点应是保持势头

懂球帝 浏览 2462

延世大学团队发现LLM思维路径的"均匀信息密度"密码

科技行者 浏览 3531

抢占本土聊天机器人市场,印度AI企业Sarvam推出Indus应用

IT之家 浏览 2020

乌克兰称扎波罗热市遭俄军袭击 多人死伤

每日经济新闻 浏览 2412

美业数字化再添新助力 成都美博会AI美业工具受追捧丨新经济观察

封面新闻 浏览 3680

特斯拉两员大将,被小米挖走了!马斯克花5000万留人

象视汽车 浏览 1125

你们猜谁会迷失在电动浪潮中?

汽车公社 浏览 3656

Agent的发展趋势,CB insights深度剖析了170家公司后给出了答案

DeepTech深科技 浏览 3676

52岁颜丙燕官宣恋情!小20岁男友被拍

青梅侃史啊 浏览 3841

苏州大学突破:8B模型实现长文理解媲美GPT-4o

科技行者 浏览 3445

撕开铁幕裂缝:国产手术机器人的千亿逆袭

钛媒体APP 浏览 3811
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1