OpenAI 想了快 10 年的超級智能體終於來了!有驚喜,但比智譜晚還“翻車”係數高?

整理 |華衛、核子可樂

2025 年了,OpenAI 預熱多時要發的超級智能體又一次沒趕在前邊。直到今日凌晨,OpenAI 才姍姍上線 Operator——一款能夠訪問 Web 併爲用戶執行任務的智能體。從今天起,Operator 已面向美國 Pro 套餐用戶開放,下一步將擴展至 Plus、Team 以及 Enterprise 用戶,並在未來將相關功能集成至 ChatGPT 當中。用戶可以要求 Operator 處理各種重複性的瀏覽器任務,例如填寫表格、訂購雜貨甚至是創建表情包。

而就在昨日,智譜就全新升級了去年 11 月就“搶跑”OpenAI 發佈的電腦智能體 GLM-PC ,主打的是“代碼思維”,新推出了「深度思考」模式,又增加專用來做邏輯推理和代碼生成的功能。

功能體驗:Operator“好壞參半”

OpenAI 的首個智能體 Operator 終於到來,好消息是它能幫你自動幹不少電腦上的活兒了,但壞消息是“翻車”係數不低。

作爲 OpenAI 首款真正模擬人類操作網頁瀏覽器的 Agent,Operator 能夠自動完成預訂旅行住宿、餐廳預約和在線購物等複雜任務。用戶可以在多個類別中選擇不同的自動化任務,涵蓋購物、配送、餐飲和旅行等領域。

期間,用戶可以添加其他指令和隨時接管控制,Operator 還可以同時運行多項任務。並且,Operator 允許用戶保存主頁上的快速訪問提示詞,因此非常適合執行重複類任務。如果用戶沒有指定網站,Operator 也可以進行瀏覽,而不是直接進入應用程序或服務。對於關鍵操作,Operator 會要求用戶確認。

技術方面,Operator 可以對瀏覽器進行“查看”(通過屏幕截圖)、和“交互”(使用鼠標和鍵盤支持所有操作),因此能夠在 Web 之上執行操作且無需自定義 API 集成。一旦遭遇難題或者錯誤,Operator 還可利用其推理能力實現自我糾正。

在 OpenAI 的官方演示中,Operator 執行了餐廳預訂、網購、搶勇士隊比賽門票、預約清潔服務以及點外賣等多種場景的任務。然而,演示過程卻不是全程一帆風順,剛開始的演示是正常進行,但到了後半段的演示卻頻頻“翻車”,甚至未能成功加載相關網頁。

而 Operator 的官方介紹也強調,其目前僅提供研究預覽版,雖然已經能夠處理各類任務,但仍在學習和發展的過程當中很可能會犯錯。例如,其目前在創建幻燈片或者管理日曆等複雜界面中仍然表現不佳。因此,Operator 尚有侷限性並將根據用戶反饋進一步完善。

相比之下,智譜的 GLM-PC 已經是進行了一輪升級的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 開源模型的基礎上強化了感知、規劃、創造能力,並實現有限的自我糾正現在的新版 v1.1 則在規劃和推理上作了更多的優化。

根據官方介紹,GLM-PC 不僅能夠處理複雜邏輯任務,還能在開放性問題上展現更高的適應能力、創造力和泛化能力,更能通過動態優化和情境感知,幫助用戶探索更高效的解決方案,特別是在循環任務處理、多步推理執行以及長鏈條任務管理等方面。

在實例展示中,GLM-PC 能夠自動爲微信羣好友定製個性化新春祝福語及祝賀圖片 / 視頻,並通過一鍵操作實現羣發,高效完成節日問候;能爲用戶快速查詢航班信息,篩選最經濟機票,並同步設置飛書日曆提醒,實現航班查詢、購票篩選到日程安排的一站式服務。

技術水平:誰家 Agent 模型

略遜一籌?

儘管都是通過人類一樣“觀察”和“操作”計算機來幫助用戶完成各類電腦任務,但 Operator 與智譜 GLM-PC 在工作原理上也有很大不同。

Operator 由一套名爲 Computer-Using Agent(計算機使用智能體,簡稱 CUA)的新模型提供支持,CUA 將 GPT-4o 的視覺功能與通過強化學習進行的高級推理相結合,在訓練之後能夠與圖形用戶界面(GUI)進行交互——即人們在屏幕上看到的按鈕、菜單和文本字段。

而新升級的 GLM-PC 採用的是“左右腦”協作的模式,左腦負責代碼生成與邏輯執行,右腦專注於深度感知與交互體驗,背後的支撐是智譜自主研發的多模態 Agent 模型 CogAgent 與代碼模型 CodeGeex。

具體到該智能體運轉的過程,GLM-PC 是以代碼形式指揮工作流程和工具調用,期間強化深度思考模式下的規劃、推理、反思能力,從而能夠穩定高效地應對複雜場景與任務。並且在實際執行時,GLM-PC 能感知多層環境反饋,協助反思,以有效自我糾正與優化。

總體來看,兩家發佈的電腦智能體在技術路線上各有千秋。不過,有評測結果顯示,CogAgent 在 GUI 定位(Screenspot)、單步操作(OmniAct)、中文 step-wise 榜單(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不錯的結果,但在 OSworld 上略遜於針對 Computer Use 特化的 Claude-3.5-Sonnet 和結合外接 GUI grounding 模型的 GPT-4o。

超級智能體的未來

下一步,OpenAI 計劃很快在 API 中公開支持 Operator 的模型 CUA,以便開發人員能夠使用它來構建自己的計算機使用智能體。智譜則準備將 GLM-PC 與 AIPC 深度融合。據稱,智譜正與聯想、華碩等知名 PC 廠商展開深度合作探討。

“2025 年是 Agent 之年”,在各家接二連三的智能體產品發佈後,許多人都如此感嘆。OpenAI 創始成員、特斯拉前 AI 高級總監 Andrej Karpathy 對此公開表示,“就我個人而言,我認爲 2025 - 2035 年這十年是智能體的十年。要讓它真正發揮作用,我感覺方方面面都有大量工作要做。但它應該能行得通。”

同時其指出,像 OpenAI 的 Operator 這樣的項目之於數字世界,就如同類人機器人之於物理世界。人類會成爲低級自動化的高級主管,有點像司機監控自動駕駛系統。這種情況在數字世界發生的速度會比物理世界快,因爲翻轉比特的成本大約比移動原子低 1000 倍。

“未來,大家可以組建 Operator 團隊,讓它們執行選定的長期任務,甚至是運營一整家公司——像 CEO 一樣,同時監督十個這樣的團隊,偶爾可能還得深入一線解決某個障礙。”

Karpathy 還透露,在 OpenAI 成立初期他們就研究過這個想法(參見 Universe 和 World of Bits 項目),但順序有誤——大語言模型必須先出現。但即便到現在,他也不能百分百確定時機是否成熟。畢竟多模態在過去一兩年才勉強與大語言模型整合,而且往往是作爲適配器附加的。更糟糕的是,LLM 還沒有真正涉足過任務週期極長的領域。例如,當視頻包含海量信息,是否能把所有信息都塞進上下文窗口(當前範式),然後還指望它能正常運行。

https://openai.com/index/introducing-operator/

會議推薦

在 AI 大模型技術如洶涌浪潮席捲軟件開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 - 12 日,QCon 全球軟件開發大會將在北京召開,以 “智能融合,引領未來” 爲年度主題,匯聚各領域的技術先行者以及創新實踐者,爲行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯繫票務經理 18514549229 諮詢。

今日薦文

你也「在看」嗎?