☰

今天起，國產AI可以像人一樣用手機了！一手實測在此

繼Claude發佈Computer Use驚豔全場，就在剛剛，一個國產AI實現了像人一樣使用手機！

而且還不像Claude需要打字提需求，現在手機的“手”是可以稍微去掉一些了，因爲光靠嘴說就可以實現很多功能。

例如給微信朋友圈點贊+評論，現在只需對着手機說一句：

然後啊，AI就“唰唰唰”地自己開始動手：

△本文視頻除提示外，所有操作均由AI執行

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

不難看出，在給這個AI下達命令之後，它自己就可以執行如下步驟：

打開微信 → 搜索人 → 進入對話框 → 點擊頭像 → 點開朋友圈 → 找到一條內容 → 點贊 → 評論。

而中間幾個關鍵且較爲敏感的步驟，AI還會提醒是否還要“繼續執行”，也是避免了一些烏龍的發生。

如此一來啊，我們就可以一定程度地解放雙手，把中間繁瑣的過程都交給AI來處理。

除此之外，像給老闆發微信請假，也是可以用說的：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

可以看到，這個AI不止是簡單的請假，而是曉之以理動之以情地幫我生成了一段文字。

並且內容也稱得上是教科書般的請假了。

那麼這個國產AI到底是什麼來頭？

不賣關子，它正是智譜剛剛上新的功能——AutoGLM，主打一個讓你的手機變成“自動駕駛”模式。

但說到最直觀的感受，那就是火爆已久的生成式AI，已經不再停留在簡單的生成階段，而是真真兒地開始深入到硬件替人做執行和操作。

不過在我們深度體驗一番之後發現，發微信、朋友圈點贊，還僅僅是AutoGLM能力的一隅。

還是先順着微信，AutoGLM還可以對公衆號的文章做總結。

例如我們用語音提個需求：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

從演示中我們也能看到，如果AutoGLM在轉文字時出現了錯誤，我們也是可以手動進行修改。

並且即便不是特別具體的要求，例如“最近三篇文章寫了什麼”這樣比較泛的問題，AutoGLM也是可以hold住的。

但除了微信之外，其實AutoGLM已經深入到了手機上與我們“衣食住行”相關的各個角落。

點外賣，可以用說的

接下來，我們嘗試讓AutoGLM點外賣，看看它是否能夠hold住：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

也是隻需要一句話，AutoGLM就自動在手機上執行了如下的操作：

打開美團APP → 搜索“瑞幸咖啡” → 選擇最近的店鋪 → 搜索“茉莉花香拿鐵” → 點擊“去結算”。

期間，在口味的選擇這個步驟中，也是可以通過語音的方式和AutoGLM溝通。

如此一來，以後點外賣就變成“口頭和AI交流”+“手動支付”一下了。

購物，也是可以用說的

和點外賣類似，現在AutoGLM加持下的手機，也可以用說話的方式來購物。

例如我們想回購一件商品，可以提出這樣的要求：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

AutoGLM在瞭解意圖之後，精準的在歷史訂單裡的“近一個月”範圍內找到了買過的眼鏡，然後用戶只需要操作一下支付即可。

當然，像搜索特定牌子的衣服之類的需求，AutoGLM也是可以輕鬆拿捏。

訂車票、酒店，一句話搞定

在“衣”和“食”之後，我們繼續來測試一下AutoGLM在“住”和“行”方面的能力。

例如在攜程上訂酒店：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

定位、選日期、按評分排序、訂酒店……直到付款前，AutoGLM在操作上可以說是一氣呵成。

再如在12306上訂車票：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

由此可見，手機加持了AutoGLM之後，“衣食住行”的交互方式直接邁進自動駕駛模型。

而且除了剛纔我們展示的功能之外，AutoGLM目前還支持大衆點評、小紅書、高德地圖等APP哦~

不過有一說一，說到Auto這件事兒，智譜除了在手機上發力之外，早在電腦端的網頁上就已經展現出來了。

智譜讓網頁變得Auto的工具，便是它推出的插件——清言。

或許很多小夥伴會說，不會又想說網頁總結、劃詞、寫作助手、翻譯、問答這些功能吧？

確實，清言插件的確包含了這些現在AI插件似乎都應該具備的基本功能，但這僅僅是在清言的“通用模式”。

但如果點開旁邊的“高級模式”，那麼玩法就截然不同了。

例如在小紅書的網站要找某些攻略，我們可以不用再挨個帖子看內容、“貨比三家”的來找了。

只需要在清言插件的高級模式中，給一個提出需求的動作即可，AI會自動幫你篩選並找到最優解。

舉個例子，我們在清言中點擊“站內高級檢索”，並輸入：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

從整個過程來看，在發送需求之後，我們就不需要做任何事情了。

清言也會像AutoGLM一樣，自動執行一系列步驟：

嗯，確實是節省了親自做比較+思考的時間。

而這個“站內高級檢索”若是放在知網這樣的平臺，那麼對學生黨和科研當來說，簡直就是大寫的方便：

同樣的，整個搜索、篩選到最終給出結果的過程中，完全無需人爲干預，清言上演全自動模型。

當然，若是對AI整理的內容還是不夠滿意，清言還提供一種“人機結合”的模式——量子速度。

點擊這個模式之後，就會在網頁各個細分條目後出現一個選擇框，我們可以pick自己重點或更傾向的內容，然後再交給清言做處理：

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

據瞭解，電腦網頁中的這種自動駕駛模式，目前清言已經支持了小紅書、知網和知乎。

那麼接下來的一個問題就是：

從我們實測的所有案例中不難看出，智譜的AutoGLM，其實是把AI從“語言”階段，拉高到了“執行”的層面。

AutoGLM不再僅僅是回答問題的AI，而是可以理解我們的指令，並模擬人類操作各種應用場景。

正如我們展示的它能幫我們讀網頁、在電商平臺購物、訂酒店、點贊朋友圈、發微信等等，讓AI變成助手這件事兒真正能付諸於行動。

究其背後的技術核心，主要就是AutoGLM的智能體能力了。

與傳統的只會簡單API調用的AI不同，AutoGLM能理解屏幕上的信息，自動規劃任務，並在執行過程中根據實際情況自我判斷和調整。

用戶只需通過簡單的語言指令，就可以讓它完成複雜的操作，這種能力背後的支撐來自於它強大的任務規劃和執行機制。

這就與Apple Intelligence等市面上主流的傳統AI智能體拉開了差距。

（PS：昨天蘋果剛發佈的iOS第二波AI能力，依舊停留在生成階段。）

再具體到更細節的技術，AutoGLM背後的自進化學習框架也非常值得一提。

智譜爲此開發了一個名爲WEBRL的在線強化學習系統，專門來解決訓練任務不足、反饋信號稀少等問題。

通過加入自適應學習策略，AutoGLM能夠在使用過程中不斷進化，持續提高自己的表現和效率。

也正是這種不斷自我改進的能力，使得AutoGLM變得越來越聰明，越來越能貼近人類的需求。

有一說一，僅僅是通過APP可以實現這一點上，智譜的這步棋下得稱得上是較爲超前的。

畢竟在前兩天Claude發佈Computer Use的時候，很多人就表示AI競賽已經來到了新賽季。

這也與當下大模型技術發展的趨勢相契合——

一言蔽之，就是成熟的AI，應該學習自己做事兒了。

早在去年開始，大模型的圈子裡就開始盛行大語言模型（LLM）的“進化體”——大型動作模型（LAM，Large Action Model）。

其核心也是希望能夠擺脫目前大模型只能做生成任務的禁錮，能夠借各種AI硬件作爲載體，向執行層面去過渡。

無獨有偶，在AI PC和AI手機圈子裡，各大玩家也是把眼光都聚焦到了這種新範式，包括聯想、榮耀等等。

其模式也是通過文字或語音，把任務交給端側原生的AI，讓它們能夠自行處理任務。

而且不僅是端側的AI硬件廠商在跟進，就連底層的算力玩家也在做着適配。

例如前兩天高通就爲此宣佈直接把桌面級的CPU塞進了手機裡面。

不過僅僅是通過一個軟件，更是隻通過語音就能讓AI在手機上實現像人一樣全自動地操作，智譜可以說是在這個賽季玩家中的首個。

而作爲國內少數能夠跟OpenAI全面對標的大模型玩家，智譜能夠做到這點其實也並不意外。

從早期的技術路線的發展來看，智譜面對OpenAI這個毋庸置疑的全球大模型頭部選手，它的選擇是做一個“追趕者”。

從純文本對話，到文生圖、代碼、搜索、視覺，再到今年的文生視頻、超擬人語音等多模態。

雖然從各種產品和模態上幾乎可以不落的和OpenAI逐一連線，但其實智譜從起點來看，在最根兒上的技術本質卻截然不同——

OpenAI的GPT系列則主要使用自迴歸模型，這種模型在生成文本時是單向的，即它只能基於之前的詞來預測下一個詞。

但這種單向性可能限制了模型在某些自然語言理解（NLU）任務中的表現，因爲它無法充分捕捉上下文之間的依賴關係。

而智譜的GLM採用了自迴歸填空（autoregressive blank infilling）作爲主要的預訓練目標。這種方法允許模型在生成文本時同時考慮上下文信息，從而增強對語言結構的理解和生成能力。

不僅如此，在生態方面，二者也有明顯的不同。

例如衆所周知的，OpenAI一直在堅持閉源的形式；而智譜則是閉源和開源兩頭抓，截至目前，其開源的模型如下表所示：

而不僅是這一次AutoGLM做到了搶先，智譜在八月也搶先OpenAI把類似4o的AI視頻通話上線到了清言APP中；並且就在剛剛，其背後的GLM-4-Voice也正式開源。

視頻地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

由此，若是把上述的各個節點連起來，放到時間的X軸裡，智譜的技術發展路線就一目瞭然了——正在一步一步邁近AGI：

若是按照自動駕駛領域“L幾”的說法，在智譜看來，邁向AGI，一共分爲L1-L5：

其中，L1語言能力、L2邏輯與思維能力和L3工具能力，是目前業內比較有共識的三個AI級別。

但在在L4和L5上，智譜和OpenAI還有一些區別。

在智譜看來，L4級人工智能意味着AI可以實現自我學習、自我反思和自我改進。

L5則意味着人工智能全面超越人類，具備探究科學規律、世界起源等終極問題的能力。

但人工智能多大程度上能夠做到像人腦一樣，甚至超越它呢？

對於這個問題，智譜認爲我們大致也將在未來相當長的一段時間處於42%這個階段。

（42 這個百分比靈感來自《銀河系漫遊指南》，the journey to AGI is now 42% completed，是小說里名叫“深思”（Deep Thought）的超級電腦，經過750萬年的計算，給出的關於生命、宇宙以及任何事情的終極答案。）

大腦是一個非常複雜的系統，包括聽覺、視覺、味覺、語言等多模態的感知與理解能力，有短期和長期記憶能力，深度思考和推理能力，以及情感和想象力。

另外，作爲人身體的指揮器官，大腦還懂得調動身體的各個部分協同運轉，使用各種工具。

正如下面這張圖上顯示的，有些能力今天的大模型已經解鎖，比如文本，視覺，聲音，比如一定的邏輯和使用工具的能力，有些模態的能力樹還沒有點亮，這些也是智譜未來會一直爲之努力的方向。

數年前智譜CEO張鵬就曾說過這麼一句話：

現如今回頭來看，對於當年“能跑多遠”的期待，已然是有了明確的結果——

做了，追了，智譜已經開始跑在了OpenAI的前面。

最後，附上這次智譜新功能的入口。

AutoGLM瀏覽器插件地址：https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzw

AutoGLM安卓內測地址：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

今天起，國產AI可以像人一樣用手機了！一手實測在此

相關資訊