918.com·官方网站机械(江苏)有限公司
售前:0510-87061341
售后:0510-87076718
技术:0510-87076708
邮箱:bk@163.com
微信公众号二维码
微信公众号


看屏幕、用键鼠我的 OpenClaw「闭眼」了

  现实上,GUI 从动化并非全新的测验考试,雷同的产物此前也并不鲜见,但恰好是做为后来者的 Peekaboo 踩上了新一代多模态手艺的春风。UI 识别已经是持久搅扰这一赛道的瓶颈之一,突如其来的弹窗和页面内容变更,导致的 GUI 从动化翻车是屡见不鲜。而 Peekaboo 不绑定单一厂商,能够说是坐收多模态手艺水涨船高的盈利。

  多沉平安机制叠加下,虽无法实现绝对的零风险,操做的自动权却一直由用户掌控,无效规避了 AI 后台擅自操做、现私数据泄露等焦点风险。

  正在 Peekaboo 之前,另一个耐人寻味的例子是豆包手机帮手。后者初期凭仗便利体验快速出圈,但很快因其利用系统级高危权限模仿用户点击、跨使用跳转,被微信、领取宝、淘宝等支流 App 的风控系统识别为非常行为,导致部门跨使用操做功能受限或下线,以至一度遭到浩繁支流软件厂商的声讨。时至今日,其后续成长仍然面对着生态兼容取合做模式的严沉不确定性。

  “Agent 的眼睛”听起来很像是某种通俗的附加功能,但这一描述远远低估了 Peekaboo 的实正在地位,它更主要的意义正在于完全打破了 Agent 只能被动应对的局限,将其拉入实正在的桌面操做场景。

  一种注释是,视觉方案正在施行速度上无法取通过代码号令间接操做对比,但更值得诘问之处正在于,这能否意味着视觉方案本身的落地能力就不尽人意。

  成果显示,Peekaboo 自从操做电脑完成了长链的复合使命。此中涉及到浏览器的部门正在案例一中已有所展现,更值得关心的是其正在浏览器、办公软件、系统桌面、文件夹、系统设置等多个操做平台之间的跳转,整套流程并未呈现需要人工干涉的卡顿。

  第二项测试将消息检索延长至交付阶段,要求 Peekaboo 正在 Sari 浏览器中搜刮百度热搜榜,顺次提取热搜榜、片子榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建 Excel 表格,将此前采集到的四类榜单数据进行汇总。

  这背后是 GUI 从动化手艺正在权限鸿沟、数据从权和贸易好处上取现有挪动生态的深层冲突。Peekaboo 为规避生态壁垒而生,却无法实正绕过它。当 Agent 之争落地施行能力的较劲,速度、成本、精确性,日后大概城市成为 Peekaboo 的命门。

  此外,已经的 GUI 从动化东西要看软件厂商神色行事,系统权限被牢牢把握正在对方手中,实正可以或许落地的场景很是无限,上马的结局往往是被奉上。最终有能力和毅利巴它们用起来的,往往也只剩下极客。

  这已然供给了一种沉构电脑操做底层逻辑的可能。而我们起首猎奇的是,Peekaboo 到底是具备实正在的落地能力,抑或只是噱头式的 Agent 玩具?正在实正在的桌面下,我们起首测试了其复杂持续操做能力。

  Peekaboo 搭载的像素级识别能力,可以或许从动精准标注屏幕上的按钮、输入框、弹窗、软件窗口等所有界面元素,且无需人工标识表记标帜或提前适配。同时它能够完满模仿人类的操做逻辑,自从完成鼠标点击、文字输入、页面滚动、快速键操控等全套键鼠行为。

  整套流程全数由 OpenClaw 自从完成,使命内容虽然并不复杂,但现实操做笼盖了图标识别、按钮点击、弹窗检测、搜刮框定位、内容输入等多项能力。

  正在超卓的桌面操控能力之外,Peekaboo 仍然表示出了诸多 GUI 从动化东西常见的问题。

  雷峰网讯 2026 年 5 月 11 日,当地 AI 智能体框架 OpenClaw 正式上线了 macOS 专属桌面操控东西 Peekaboo,供给像素级截图、UI 元素识别、以及完整的 GUI 从动化能力。简单来说,就是让 Agent “长出眼睛”,从此看得见屏幕、点获得按钮,以至自从操做电脑。

  此外还有上下文遗忘。当超长程使命进行到后半段时,Peekaboo 常常会健忘本人此前干了什么,然后反复施行某些操做,曲到卡死历程。

  这是一项消息检索测试。我们要求 Peekaboo 打开 Sari 浏览器,从动封闭网页弹窗干扰,然后正在顶部网址搜刮框查找「AI近期大事」,鄙人方一众搜出来的网坐中,打开第一个网坐,然后封闭网坐。

  那么对用户而言,这意味着什么样的体验改革?Peekaboo 又是若何让 AI 实正接管桌面?我们第一时间上手进行了实测。

  多模态手艺的迭代和对封锁生态的冲破合流,某种程度上,Peekaboo 成为了第一款通俗人也能用的桌面从动化东西。

  而对于 OpenClaw 而言,这同样不再是问题。保守方案是等厂商 API 接口,Peekaboo 间接操做屏幕,不只绕开了请求许可的环节,和从未对外接口的内部东西,都被厚此薄彼地纳入了 Peekaboo 的能力范畴。

  将这种性的桌面操控能力交予公共之手的同时,Peekaboo 另一个让人欣喜之处是高度完美的平安性保障。现私方面,Peekaboo 会对操做界面进行像素级截图,但因为全程跑正在当地,因而屏幕画面无需上传云端。此外可控性方面,Peekaboo 施行的每一项使命都有完整的操做记实可供逃溯,由手动触发启动,不支撑后台寂静运转,且能够随时一键中缀。

  到此为止,能够说 Peekaboo 绝非仅仅支撑单点点击的演示型东西。当然,对于 GUI 从动化而言这还只是入门。落地能力更为焦点的是正在使命流延长至跨软件甚至跨系统的程度时,Peekaboo 能否仍然可以或许实现全流程自从的桌面操做。

  当然若是你看了前面的测试视频,会发觉最较着的问题仍然是施行速度。复杂界面识别、超长使命流程城市导致 Peekaboo 有比力较着的延迟,这也是 GUI 从动化东西的通病。

  起首是坐标偏移。分歧的显示器分辩率、窗口缩放比例之下,页面元素的变化偶尔会导致点击坐标漂移、操做点位误差。即便全体识别率处于较高程度,也仍然影响了 Peekaboo 对于复杂使命的完成精度。

  出格是正在统一个页面中施行输入内容、定位词条等使命时,从视频中能够看出,Peekaboo 自从完成了规避弹窗干扰、适配动态网页结构,这表白其可以或许不变地识别复杂的软件界面。更环节的是,正在连贯完成多步调桌面操做时,Peekaboo 表示出的操做逻辑也很是贴合人类利用习惯。

  这意味着 OpenClaw 和 Peekaboo 的连系曾经具备了实正在的办公从动化能力,而 OpenClaw 的定位也正正在从 AI 东西的挪用者,转向下一代桌面操做底座。正在 Agent 遍及以挪用第三方东西为焦点逻辑的布景下,Peekaboo 让 OpenClaw 成为了距离接管整个电脑比来的选手。

  GUI 从动化或能够视为 OpenClaw 正在 Computer Use 上的最初一块能力短板。此前的 Agent 交互模式尚逗留正在文本对话层面,虽然曾经实现了高度自从的指令遵照和使命闭环能力,而 Peekaboo 的登场将 Agent 带进了下一个时代,只要可以或许“看见”,它们才算是成为了实正可以或许全权接管桌面的自从施行体。

  除了此前提到的操做精准性和施行速度,通过多模态理解实现的 GUI 从动化还意味着不俗的 Token 成本。Peekaboo 正在设想之初明显也考虑到了这一点,试图通过 VQA 定向阐发和元素 ID 压缩等体例削减 Token 耗损,前者指多模态模子收到屏幕截图后不前往完整图像描述,而是针对具体问题生成精简回覆,后者则暗示利用短 ID 来标识表记标帜界面 UI 元素,比拟原始坐标或完整描述愈加紧凑。

  更焦点的劣势正在于无依赖通用性,Peekaboo 不依赖软件 API、无需嵌入 SDK 适配,这意味着所有桌面软件、网页平台都能间接兼容适配。它正在赛博世界留下的踪迹就像一个实正的人类用户那样,一切你能操做的对象,它都能够接办。

  很长一段时间以来, AI 桌面从动化东西大多局限于极客群体,难以走进通俗用户日常的办公、糊口场景。而 Peekaboo 的分歧之处正在于,它的摆设跟竞品比起来实正在太简单了,既能够做为 MCP 办事运转,一行号令行无缝接入OpenClaw、Codex、Claude Code 或 Cursor,小白也能够间接正在 ClawHub 安拆 Peekaboo Skill,零设置装备摆设利用。

  • 发布于 : 2026-06-05 11:17


0510-87061341 (售前)
0510-87076718 (售后)
0510-87076732 (技术)

微信公众号

微信服务号