彭博今天消息,OpenAI 正准备推出一款代号为“Operator”的全新AI Agent产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。
根据内部员工爆料,OpenAI领导层预计将在2025年1月发布该产品,同时会为开发人员开放API接口。
彭博表示,OpenAI一直在进行几个与智能体相关的研究项目。其中一位人士表示,最接近完成的将是一个在网络浏览器中执行任务的通用工具。
OpenAI这一计划的发布,是整个行业向智能体推进的一部分。最近微软、谷歌、Anthropic都相继发布了功能强大的AI Agent。
尤其是Anthropic发布的“Computer Use”直接颠覆了人机交互,通过API开发者可以让 Claude 像人类一样使用计算机控制鼠标、键盘,包括查看屏幕、移动光标、点击按钮和输入文本等操作。
例如,用户可以让 Claude 去搜索网页上的信息、在电子表格中填写数据;或者打开软件进行特定的操作;也能协助开发人员执行重复性任务、测试代码等,整个流程Claude 会根据指令自动执行相应的操作。
目前,Computer use主要依靠API来驱动自动化指令,当开发者通过API向Claude 发送指令时,Claude会运用其自然语言处理能力解析指令。其内部语言模型会对指令文本进行词法、句法和语义分析,例如,对于 “使用计算机中的数据填写在线表格” 这样的指令,Claude 会识别出关键动作是填写表格以及数据来源是计算机中的数据。
这一过程类似它在处理文本生成任务时对语义的理解,只是此时语义重点在于计算机操作。会基于预训练过程中学到的语言模式和知识,将指令意图映射到对应的计算机操作概念上,预训练的知识包括常见的计算机操作术语、软件功能描述等,以便准确把握开发者希望它执行的操作。
而OpenAI在明年发布的“Operator”很可能会在Computer use的基础之上进行大幅度创新和应用简化,扩大AI Agent的使用范围和应用场景。
本文作者:AIGC开放社区,来源:AIGC开放社区,原文标题:《发力AI Agent!OpenAI将推出“Operator” ,2025年1月上市》