智譜AI上線最新“自主智能體”,“Her”終於能照進現實了

文 | 田哲

編輯 | 蘇建勳

在對標OpenAI之路上,智譜AI又近了一步。

今年年初,OpenAI被爆出將自研AI Agent軟件,它可替代人類,自動導航至任何網站並執行指定任務。

10月25日,智譜AI推出相似產品——自主智能體AutoGLM,智譜將其稱爲是一個可模擬用戶點擊屏幕的手機操作助手,以及點擊網頁的瀏覽器助手。

智譜的展示視頻顯示,AutoGLM可實現網頁進行線上點餐、整理小紅書筆記並生成攻略、總結論文等功能。

同時,智譜AI還推出了端到端情感語音模型GLM-4-Voice 。這款情感語音模型不僅能夠模擬真實的情感表達,甚至連細微的停頓、喘氣都表現得惟妙惟肖。

這一技術的突破,與科幻愛情電影《Her》的部分情節相似。電影中,男主角西奧多與AI助手薩曼莎偶然相識,薩曼莎正是通過富有情感的語音互動讓人感到貼近、溫暖。

如今,智譜AI的情感語音模型似乎正把《Her》中的科幻場景帶入我們的日常生活,人工智能不再只是冷冰冰的工具,而開始具備“情感”與“個性”。

《Her》已經初具雛形,具有自我意識和情感的AI或許不久會出現。

自主智能體上線:能點外賣、誇彩虹屁

與OpenAI的AI Agent相似,智譜清言AutoGLM模型,也無需用戶手動操作示範,不受制於簡單的任務場景或API調用,即可替代人類在電子設備執行操作。

目前,智譜AutoGLM可適配微信、淘寶、美團、小紅書等8款知名應用軟件,覆蓋日常生活常用的線上聊天、網購、社交、地圖、酒店火車訂票等功能。

具體而言,當你向AutoGLM發出指令後,雙方之間的對話將以語音形式展現,並實時顯示字幕。

例如,你可以要求AutoGLM在大衆點評給出指定的店家好評,並自動編輯評論。在執行“發送評論”這一超出指令的操作時,AutoGLM會主動提示是否進行。

 

你也能讓AutoGLM查找淘寶某一時段的歷史訂單,復購指定商品。

 

就連向指定微信好友的朋友圈點贊、評論,這一步驟較長的任務也能完成。

 

除了網購、編輯評論等功能之外,AutoGLM還能批量總結微信公衆號多篇文章,並生成文章摘要。

 

智譜公衆號介紹,AutoGLM基於自進化在線課程強化學習框架WEBRL,克服了訓練任務稀缺、反饋信號稀少和策略分佈漂移等網頁智能體研究和應用難題,加之自適應學習策略,能夠在迭代過程中不斷改進、持續穩定地提高自身性能。這意味着,AutoGLM具備了一定自我糾錯能力。

來源:智譜公衆號

據悉,爲了保護用戶隱私,AutoGLM不會主動獲取用戶的個人隱私信息,如果需要執行授權範圍之外的任務,AutoGLM會主動提示以獲取用戶同意。

即使用戶向AutoGLM授權,也不意味着AutoGLM永久擁有相關權限。每次後臺啓動AutoGLM,都會重新向用戶申請無障礙權限。

目前,AutoGLM已上線電腦端開放使用,安裝清言插件即可使用,手機端AutoGLM正開放安卓手機內測。

情感語音模型 ,有情感、會停頓

兩個月前,智譜清言首次秀了一把語音通話技術,雖然當時語音通話功能能聽懂對話、回覆還算準確,但語氣像是機器人“背稿子”,沒啥感情。要是讓它來點情感表達,它還會一本正經地告訴你:“作爲一個人工智能,無法表達感情”。

不過,現在升級後的情感語音模型,感覺就不一樣了。語音聽起來更有“人味兒”,還能加點感情,像真人一樣跟你聊。

它已經學會了用撒嬌、調侃、憤怒、歇斯底里等語氣表達。比如,擬人語音能模仿孩子,用撒嬌語氣向姐姐要糖葫蘆。

如果普通話聽膩了,沒問題,它還能切換爲北京、東北、廣東、臺灣、重慶五地腔調,比如介紹美食時那句經典的“巴適得板”,直接讓人食慾大開。

玩角色扮演遊戲也不成問題,可以把它設定爲《哈利波特》中的反派伏地魔與你戰鬥,並能要求它以指定的語氣進行扮演。比如它能以電視劇中常見的反派語氣說話。

如果挑戰繞口令加速,它可能就會“翻車”了,發音有點“飄”。

不過在某些時候,GLM-4-Voice說話時偶爾會出現短暫的電流聲。

另外,發音偶爾也可能不標準,比如將爲什麼的“爲”,發音爲“微”。

據瞭解,GLM-4-Voice結合了自然語言生成(NLG)和語音合成技術,相比傳統的TTS技術(Text-to-Speech),擬人語音能夠理解上下文語境,實現富有情感的自然對話。

此外,GLM-4-Voice以音頻 token 的形式直接建模語音,在一個模型裡面同時完成語音的理解和生成,信息損失和誤差積累相比傳統級聯方案更少,理論上有着更高的建模上限。

GLM-4-Voice 模型架構圖;來源:智譜AI

這不是清言擬人語音通話的全部功能,其對標GPT 40,將在響應和打斷速度、情緒感知情 感共鳴、語音可控表達、多語言多方言等方面進一步突破。目前,其已實現不同情緒,各地方言說話時,還能調節語速、音量,實現與真人般的對話。

目前,GLM-4-Voice已上線清言app,用戶可與清言自然聊天。值得注意的是,GLM-4-Voice已對外開源,這是智譜AI首個開源的端到端多模態模型。

下一步,它還將支持視頻通話功能,屆時不僅能認出物體,還能用語氣帶來“眼神交流”的互動感。

據智譜公衆號,智譜發佈從文本、圖像、視頻到情感語音模型等多模態,並讓AI學會使用各種工具,原因在於其打造了新的基座模型——GLM-4-Plus。在語言文本能力方面,GLM-4-Plus和GPT-4o、405B參數量的Llama3.1 相當。

加碼AI手機,智譜找到商業化大入口

“現在的小模型還處於找市場的階段,需要將市場與技術磨合,提升效率的同時找到新的應用場景。”

兩個月前,智譜AI CEO張鵬與《智能涌現》的訪談中,提到了這一觀點。與手機廠商合作AI智能體,或許就是張鵬所說的新場景。

找到場景,是模型廠商的當務之急,這意味着模型廠商不僅能獲得穩定的收入來源,完成自我造血,同時也能在場景中持續手機數據,進行產品迭代。

而AI智能體是大模型應用的主要形式之一,其具備自主感知、決策並採取行動,被認爲將是電腦、智能手機下一代產品形態的AI手機、AI PC,就搭載了AI智能體。據諮詢機構IDC預計,2027年,中國市場AI手機和AI PC的市佔率將分別超過50%、80%。

智譜正在加緊推動大模型落地AI手機。本月22日,智譜與高通達成合作,爲驍龍 8 至尊版適配優化 GLM-4V 端側視覺大模型,提供多模態交互方式;23日,智譜與三星手機圍繞GLM-4V 端側視覺大模型合作,雙方將打造AI產品。

而AutoGLM,智譜也透露正在與榮耀等手機廠商開展深度合作。事實上,今年9月智譜與榮耀已成立AI大模型技術聯合實驗室。

榮耀也有意進一步提升AI智能體的表現。在23日的榮耀MagicOS 9.0發佈會媒體採訪中,榮耀終端有限公司CEO趙明表示,榮耀正在通過AI重構操作系統,打造核心底層能力,以實現更加智慧化的服務。

AI手機風頭正盛,多家手機廠商如蘋果、榮耀、vivo、OPPO等爭相推出具備AI功能的手機,AI功能如AI消除、AI通話摘要等。

然而,搭載AI智能體的手機目前數量較少,其中原因,既包括行業技術發展仍不成熟,另一反面相關標準長期缺失。

不過,這一情況正在逐步改善。

市場層面,Open.ai、智譜等模型廠商已傳出與手機公司合作消息,將推動模型廠商、應用軟件提供者與手機廠商之間的合作。

政策層面,中國信息通信研究院與國內多家手機廠商聯合發佈《終端智能化分級研究報告》,其中對終端智能化進行了分級定義,一定程度,這將推進國內AI手機市場的發展。

終端智能化分級定義

多款大模型已與智能手機生態公司合作,或許AI手機,將成爲智譜商業驅動的主引擎。