☰

OpenAI 想了快 10 年的超級智能體終於來了！有驚喜，但比智譜晚還“翻車”係數高？

整理｜華衛、核子可樂

2025 年了，OpenAI 預熱多時要發的超級智能體又一次沒趕在前邊。直到今日凌晨，OpenAI 才姍姍上線 Operator——一款能夠訪問 Web 併爲用戶執行任務的智能體。從今天起，Operator 已面向美國 Pro 套餐用戶開放，下一步將擴展至 Plus、Team 以及 Enterprise 用戶，並在未來將相關功能集成至 ChatGPT 當中。用戶可以要求 Operator 處理各種重複性的瀏覽器任務，例如填寫表格、訂購雜貨甚至是創建表情包。

而就在昨日，智譜就全新升級了去年 11 月就“搶跑”OpenAI 發佈的電腦智能體 GLM-PC ，主打的是“代碼思維”，新推出了「深度思考」模式，又增加專用來做邏輯推理和代碼生成的功能。

功能體驗：Operator“好壞參半”

OpenAI 的首個智能體 Operator 終於到來，好消息是它能幫你自動幹不少電腦上的活兒了，但壞消息是“翻車”係數不低。

作爲 OpenAI 首款真正模擬人類操作網頁瀏覽器的 Agent，Operator 能夠自動完成預訂旅行住宿、餐廳預約和在線購物等複雜任務。用戶可以在多個類別中選擇不同的自動化任務，涵蓋購物、配送、餐飲和旅行等領域。

期間，用戶可以添加其他指令和隨時接管控制，Operator 還可以同時運行多項任務。並且，Operator 允許用戶保存主頁上的快速訪問提示詞，因此非常適合執行重複類任務。如果用戶沒有指定網站，Operator 也可以進行瀏覽，而不是直接進入應用程序或服務。對於關鍵操作，Operator 會要求用戶確認。

技術方面，Operator 可以對瀏覽器進行“查看”（通過屏幕截圖）、和“交互”（使用鼠標和鍵盤支持所有操作），因此能夠在 Web 之上執行操作且無需自定義 API 集成。一旦遭遇難題或者錯誤，Operator 還可利用其推理能力實現自我糾正。

在 OpenAI 的官方演示中，Operator 執行了餐廳預訂、網購、搶勇士隊比賽門票、預約清潔服務以及點外賣等多種場景的任務。然而，演示過程卻不是全程一帆風順，剛開始的演示是正常進行，但到了後半段的演示卻頻頻“翻車”，甚至未能成功加載相關網頁。

而 Operator 的官方介紹也強調，其目前僅提供研究預覽版，雖然已經能夠處理各類任務，但仍在學習和發展的過程當中很可能會犯錯。例如，其目前在創建幻燈片或者管理日曆等複雜界面中仍然表現不佳。因此，Operator 尚有侷限性並將根據用戶反饋進一步完善。

相比之下，智譜的 GLM-PC 已經是進行了一輪升級的“第二代”版本了。去年 11 月，GLM-PC v1.0 在 CogAgent 開源模型的基礎上強化了感知、規劃、創造能力，並實現有限的自我糾正現在的新版 v1.1 則在規劃和推理上作了更多的優化。

根據官方介紹，GLM-PC 不僅能夠處理複雜邏輯任務，還能在開放性問題上展現更高的適應能力、創造力和泛化能力，更能通過動態優化和情境感知，幫助用戶探索更高效的解決方案，特別是在循環任務處理、多步推理執行以及長鏈條任務管理等方面。

在實例展示中，GLM-PC 能夠自動爲微信羣好友定製個性化新春祝福語及祝賀圖片 / 視頻，並通過一鍵操作實現羣發，高效完成節日問候；能爲用戶快速查詢航班信息，篩選最經濟機票，並同步設置飛書日曆提醒，實現航班查詢、購票篩選到日程安排的一站式服務。

技術水平：誰家 Agent 模型

略遜一籌？

儘管都是通過人類一樣“觀察”和“操作”計算機來幫助用戶完成各類電腦任務，但 Operator 與智譜 GLM-PC 在工作原理上也有很大不同。

Operator 由一套名爲 Computer-Using Agent（計算機使用智能體，簡稱 CUA）的新模型提供支持，CUA 將 GPT-4o 的視覺功能與通過強化學習進行的高級推理相結合，在訓練之後能夠與圖形用戶界面（GUI）進行交互——即人們在屏幕上看到的按鈕、菜單和文本字段。

而新升級的 GLM-PC 採用的是“左右腦”協作的模式，左腦負責代碼生成與邏輯執行，右腦專注於深度感知與交互體驗，背後的支撐是智譜自主研發的多模態 Agent 模型 CogAgent 與代碼模型 CodeGeex。

具體到該智能體運轉的過程，GLM-PC 是以代碼形式指揮工作流程和工具調用，期間強化深度思考模式下的規劃、推理、反思能力，從而能夠穩定高效地應對複雜場景與任務。並且在實際執行時，GLM-PC 能感知多層環境反饋，協助反思，以有效自我糾正與優化。

總體來看，兩家發佈的電腦智能體在技術路線上各有千秋。不過，有評測結果顯示，CogAgent 在 GUI 定位（Screenspot）、單步操作（OmniAct）、中文 step-wise 榜單（CogAgentBench-basic-cn）、多步操作（OSWorld）都取得了不錯的結果，但在 OSworld 上略遜於針對 Computer Use 特化的 Claude-3.5-Sonnet 和結合外接 GUI grounding 模型的 GPT-4o。

超級智能體的未來

下一步，OpenAI 計劃很快在 API 中公開支持 Operator 的模型 CUA，以便開發人員能夠使用它來構建自己的計算機使用智能體。智譜則準備將 GLM-PC 與 AIPC 深度融合。據稱，智譜正與聯想、華碩等知名 PC 廠商展開深度合作探討。

“2025 年是 Agent 之年”，在各家接二連三的智能體產品發佈後，許多人都如此感嘆。OpenAI 創始成員、特斯拉前 AI 高級總監 Andrej Karpathy 對此公開表示，“就我個人而言，我認爲 2025 - 2035 年這十年是智能體的十年。要讓它真正發揮作用，我感覺方方面面都有大量工作要做。但它應該能行得通。”

同時其指出，像 OpenAI 的 Operator 這樣的項目之於數字世界，就如同類人機器人之於物理世界。人類會成爲低級自動化的高級主管，有點像司機監控自動駕駛系統。這種情況在數字世界發生的速度會比物理世界快，因爲翻轉比特的成本大約比移動原子低 1000 倍。

“未來，大家可以組建 Operator 團隊，讓它們執行選定的長期任務，甚至是運營一整家公司——像 CEO 一樣，同時監督十個這樣的團隊，偶爾可能還得深入一線解決某個障礙。”

Karpathy 還透露，在 OpenAI 成立初期他們就研究過這個想法（參見 Universe 和 World of Bits 項目），但順序有誤——大語言模型必須先出現。但即便到現在，他也不能百分百確定時機是否成熟。畢竟多模態在過去一兩年才勉強與大語言模型整合，而且往往是作爲適配器附加的。更糟糕的是，LLM 還沒有真正涉足過任務週期極長的領域。例如，當視頻包含海量信息，是否能把所有信息都塞進上下文窗口（當前範式），然後還指望它能正常運行。

https://openai.com/index/introducing-operator/

會議推薦

在 AI 大模型技術如洶涌浪潮席捲軟件開發領域的當下，變革與機遇交織，挑戰與突破共生。2025 年 4 月 10 - 12 日，QCon 全球軟件開發大會將在北京召開，以 “智能融合，引領未來” 爲年度主題，匯聚各領域的技術先行者以及創新實踐者，爲行業發展撥雲見日。現在報名可以享受 8 折優惠，單張門票立省 1360 元，詳情可聯繫票務經理 18514549229 諮詢。

今日薦文

你也「在看」嗎？

OpenAI 想了快 10 年的超級智能體終於來了！有驚喜，但比智譜晚還“翻車”係數高？

相關資訊