关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者3331人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

撕开铁幕裂缝:国产手术机器人的千亿逆袭

钛媒体APP 浏览 3513

波罗的海三国正式退出《渥太华禁雷公约》

上观新闻 浏览 2531

福建赖氏宗亲:姓赖的都是中国人 姓赖者根源都在中国

环球网资讯 浏览 7585

记者:曼市双雄尚未和森林谈安德森,若欧联夺冠森林希望留人

懂球帝 浏览 713

光峰科技“认领”闪极AI显示眼镜S1:采用蜻蜓G1 mini光机

IT之家 浏览 2544

王浩然三分绝杀,深圳95-92险胜山东,克里斯空砍30分

懂球帝 浏览 2636

慢镜头:科莫球迷主场静默15分钟,抗议米兰vs科莫的海外赛

懂球帝 浏览 3539

智能早报丨黄仁勋造访台积电3nm产线索取产能;万华化学突破机器人“仿生皮肤”材料

观察者网 浏览 3172

超千万元罚单屡见不鲜!第三方支付机构这些“坑”别再踩了

国际金融报 浏览 2382

冰雪穿越理念 宾利添越Concept X官图发布

车质网 浏览 2139

美海军第五舰队总部遇袭前后卫星图公开

扬子晚报 浏览 38864

马竞官方:巴勃罗-巴里奥斯肌肉轻度损伤

懂球帝 浏览 3305

许利民:如此困难的情况下大家坚持到了最后,取胜全靠精神力

懂球帝 浏览 2230

从素人到涨粉30万,她全靠这些穿搭“小心思”?

黎贝卡的异想世界 浏览 1491

光伏“卖铲人”去年净利腰斩

网易财经 浏览 1937

陶虹与朋友相聚,17岁女儿五官与神态似徐峥

黔乡小姊妹 浏览 2629

原来她就是黄景瑜背后的老板,曾是央视主持

因果 浏览 2272

奇瑞的2025年,一场教科书级的“协同战”

车评社Auto 浏览 2532

预计一季度上市 尚界高颜值轿跑Z7预告图发布

网易汽车 浏览 2380

第一次见有人被官方认证吹牛!内娱这位“老师”简直让人笑掉大牙

娱乐圈笔娱君 浏览 3026

中航大学:AI聊天机器人的"假身份证"攻击如何骗过智能助手

科技行者 浏览 3318
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1