起源:DeepTech深科技外地时光 1 月 23 日,OpenAI 正式推出了其首款 AI 智能体 Operator。它能够经由过程自带的阅读器自力阅读网页,并经由过程键入、单击跟转动来与之交互,可能实现填写表格、订购一样平常用品,乃至是创立心情包的义务。(起源:OpenAI)OpenAI 表现,“它现在处于研讨预览阶段,这象征着它存在范围性,并将依据用户反应一直变更。Operator 是咱们的第一批智能体(Agent)之一,它们是可能自力为你任务的 AI,你给它一个义务,它就会履行。”Operator 将起首向美国的 ChatGPT Pro 订阅用户推出。OpenAI 表现,它打算终极将此功效推广给其 Plus、Team 跟 Enterprise 级其余更多用户群体。作为一项研讨预览任务,它现在可经由过程自力网站拜访,OpenAI 表现,盼望很快将 Operator 集成到其全部 ChatGPT 利用中。图 | Operator 操纵演示(起源:OpenAI)山姆·奥特曼(Sam Altman)对这项技巧充斥等待跟信念。这位 OpenAI CEO 在宣布会直播中明白表现:“这款产物是咱们进军智能体范畴的开端。”与此同时,OpenAI 总裁兼结合开创品德雷格·布罗克曼(Greg Brockman)也在 X 上写道:“2025 年将是智能体元年。”作为 ChatGPT 的严重进级,Operator 不只仅是一个简略的信息处置东西,更是直接展示了 AI 东西从主动接受信息向自动举动的要害逾越。图 | 在演示视频中,Operator 能够网购食品(起源:OpenAI)Operator 的中心才能是替换人类停止一系列电脑操纵。作为一个智能体,它能够像真人一样流利地阅读网页,精准所在击、转动、填写表单,乃至能自力实现订票、购物、订餐等相称庞杂的义务。差别于传统的虚构助手,这款 AI 助手真正具有了“举动”的才能,而非仅仅给出倡议或回答。Operator 背地的技巧被 OpenAI 称为“盘算机应用智能体(Computer-Using Agent,简称 CUA)”模子。这一全新模子奇妙地联合了 GPT-4o 的视觉辨认才能跟高等推理技巧,能够经由过程截图“懂得”网页,并像人类一样精准操纵鼠标跟键盘。CUA 经由练习,能够像人类一样与图形用户界面(GUI,Graphical User Interface)停止交互,包含人们在屏幕上看到的按钮、菜单跟文本。这使它可能机动地履行数字义务,而无需应用特定于操纵体系或收集的 API。?图 | Operator 能够依据指令预约餐厅(起源:OpenAI)依据用户的指令,CUA 经由过程集成感知、推理跟举措的迭代轮回停止操纵,其任务道理大抵分为三个要害阶段。感知:将屏幕截图增加到模子的高低文中,供给盘算机以后状况的视觉快照,用于具体剖析页面内容跟构造。推理:应用庞杂的思绪链推理后续步调,同时斟酌以后跟从前的屏幕截图跟操纵。这使其可能评价其察看成果、跟踪旁边步调并静态调剂,从而进步义务表示。操纵:履行操纵(单击、转动或键入),直到断定义务已实现或须要用户输入。固然 CUA 会主动处置年夜少数步调,但对敏感操纵(比方输入登录具体信息或填写验证码),CUA 会追求用户确认。这种决议进程使 Operator 可能在差别的网页情况中机动应答。尤其是在 WebArena 跟 WebVoyager 两项阅读器操纵测试中,驱动 Operator 的 CUA 模子展示出了令人印象深入的表示。图 | Operator 在差别义务中的测试成就,片面超越了此前 SOTA(起源:OpenAI)WebArena 应用自托管的开源网站离线模仿网购、在线市肆内容治理、交际论坛等收集场景。WebVoyager 则在 Amazon、GitHub 跟 Google Maps 等实在网站上测试模子的机能。不外 WebAreana 的义务绝对愈加庞杂。CUA 在 WebArena 上的胜利率为 58.1%,而在 WebVoyager 测试中,其在现实网站导航中获得了惊人的 87% 胜利率,能够自力实现从在线购物到游览预订的种种义务,展示出了令人高兴的潜力。除了基本阅读才能,Operator 还具有特性化定制功效。用户能够为特定网页或全站增加自界说指令,并在主页保留这些指令,实现跨谈天窗口的多义务并行处置。这种机动性极年夜地晋升了实在用代价。别的,在 OSWorld 基准测试中(用于评价模子把持 Ubuntu、Windows 跟 macOS 等完全操纵体系的才能),CUA 的胜利率为 38.1%。不外,人类在这项测试中的均匀成就是 72.4%,阐明 AI 另有很年夜的提高空间。OpenAI 还表现,其察看到跟着测试时光的增添(这象征着容许停止更多操纵步调),CUA 的表示会进步。图 | 跟着最年夜容许步调数的增添,CUA 的表示也越来越好(起源:OpenAI)斟酌到 AI 智能体可能带来的潜伏危险,OpenAI 在 Operator 中设置了多重严厉的保险机制。用户能够随时接收把持权,填写信誉卡信息跟确认付款等敏感操纵都须要人工明白确认。现在,Operator 还被限度不克不及处置银行买卖、发送电子邮件(只管 CUA 能够做到这一点)、删除日历事项等高危险义务。除了用户把持机制,Operator 还装备了滥用防备体系。它可能辨认并谢绝无害恳求,并在检测到可疑运动时破即停息履行。它还配有黑名单机制,很多打赌网站、成人文娱网站以及毒品或枪支批发网站都无奈拜访。图 | OpenAI 先容的一些保险办法(起源:OpenAI)OpenAI 在其网站上说明道,Operator 应用的监控体系旨在限度模子实验歹意提醒、暗藏指令跟收集垂纶。假如检测到可疑运动,监控体系会停息 Operator 的任务,而主动跟人工检察机制会一直更新保证办法。不外即便是阅读网页跟操纵电脑,Operator 现在也存在必定范围性。OpenAI 表现,“现在还不克不及指望 CUA 在全部场景下都能牢靠运转。”比方,它还无奈牢靠地处置很多庞杂或专业的义务,比方创立具体的幻灯片、治理庞杂的日历体系,或与高度定制或非尺度的 Web 界面停止交互。与此同时,很多网站(如 Reddit)曾经禁止 AI 智能体阅读,因而 Operator 无奈拜访它们。在这种研讨预览形式下,出于机能或执法起因,OpenAI 还禁止了 Operator 拜访某些资本麋集型网站(如 Figma)或直接竞争敌手领有的网站(如 YouTube)。最后,CEO 奥特曼在直播中表现,Operator 是 OpenAI 的“第一批智能体”,将来多少周跟多少个月还会推出更多的智能体。越来越多的 AI 智能体呈现,标记着 AI 正从主动的信息处置东西,改变为自动的数字生态体系参加者。无论是简化一样平常事件,仍是翻新贸易任务流程,AI 正在变得越来越适用。人类与 AI 的合作,正在从设想逐步变为事实。参考材料:? ?https://openai.com/index/introducing-operator/https://openai.com/index/computer-using-agent/https://techcrunch.com/2025/01/23/openai-launches-operator-an-ai-agent-that-performs-tasks-autonomously/https://venturebeat.com/ai/meet-openais-operator-an-ai-agent-that-uses-the-web-to-book-you-dinner-reservations-order-tickets-compile-grocery-lists-and-more/[db:摘要]