讓 AI 從「語言智能」進化到「現實智能」這家手機公司想得最透徹

2016 年冬天,榮耀發佈了第一代榮耀 Magic 手機和 MagicUI 系統,喊出「致未來」的口號,表示要打開手機的「智慧」之門。

第一代 Magic 手機搭載了 Magic Live 智慧引擎,實現了很多智能推薦能力,比如當有人問「你在哪」,輸入法可以自動獲取當前位置,一鍵回覆。現在回想,那就是「AI 手機」的雛型。

那時,OpenAI 才成立剛滿一年,還只是一家專注於 AI 研究的非營利機構,很少有人會預料到,8 年後的今天,AI 會成爲計算機領域最前沿、最重要的關鍵詞。現在,所有的智能手機廠商,都在基於大模型技術,重新思考手機的智能變革。

經過 8 年時間,MagicOS 也來到了自己的 9.0 版本。8 年裡,榮耀積累了大量手機智能化的經驗,對智能感知、推薦,多模態交互,自主執行等等問題,都有了更深的理解。

從最初的 MagicUI,到 7.0 整合各項能力推出平臺級 AI,蛻變爲 MagicOS,以及 8.0 引入大模型能力後,爲行業首次帶來了基於意圖識別的人機交互革新,榮耀走過了一條很長的路。而通過 MagicOS 9.0,榮耀希望打造一個真正「有靈魂」的全場景 AI 操作系統,不只有大模型作爲 AI 的大腦,還有豐富的感官,以及強壯的手腳。

01

爲AI打造「感受器官」

對 AI 來說,模型就像是「大腦」,具備核心的理解、組織、生成能力。但它仍然需要「耳」、「口」,作爲信息輸入輸出的界面。

而大部分 AI 助手產品,都只具備最基本的輸入輸出能力,它們的界面往往只是一個聊天框,接收信息的方式是被動的,輸出信息的方式是單一的。

這導致用戶使用這些產品時負擔很重,輸入的過程需要自己組織語言寫提示詞,輸出之後又要自己動手把 AI 給到的結果進行處理後才能使用。大部分 AI 大模型都有服務接口可以用於自動化處理,但那需要專業的代碼才能實現,普通用戶根本無法做到。

所以說,想要讓 AI 變得真正智能且好用,就必須增加 AI 的「主動感知能力」。

這正是手機廠商所擅長的技術點。在大模型時代到來之前,各家手機廠商已經做過很多基於手機端側信息的「智能推薦」功能。

其中,榮耀更是一直將「智能推薦」作爲核心建設重點。尤其在 MagicOS 7.0 上,榮耀憑藉 Magic Live 智慧引擎的全面升級,不僅建立了對「環境」與「人」的精準感知,更通過 Magic Live 對系統方方面面的使能,帶來了「懂你所需的主動服務」。比如當你走到地鐵站時,系統會自動感知你有乘車需求,以卡片形式主動彈出乘車碼;到了上下班時間會主動提醒考勤打卡。

這是 7.0 之前,MagicOS 核心感知邏輯,即基於時間、日程,以及「地理圍欄」技術來感知用戶所處場景,分析用戶習慣構建畫像……這部分技術本身並不複雜,就是一系列的客觀條件判斷,但如何把顆粒度做細,真正契合進場景,依然需要結合用戶習慣,進行細緻的打磨。

從 MagicOS 8.0 開始,Magic Live 智慧引擎的感知能力上升到了大模型層面,基於 AI 圖像語義理解的 Magic 文本升級,可一鍵識別圖片中的電話、地址、航班號、快遞號等文本信息,提供一步直達的關聯服務,如快遞可一鍵查詢,地址可直接導航。榮耀將這部分感知能力與「任意門」功能結合,實現了一系列快捷操作。

而到了 MagicOS 9.0,榮耀則將意圖識別的能力帶到了 AI 的交互層,它能夠將自己感知到的位置、時間、日程等信息,作爲用戶指令的前置判斷條件,建立更完善的個人知識庫,實現「猜你所想,懂你所需」。

比如當用戶向 MagicOS 發出指令說「先到超市買東西,再回家」時,MagicOS 既能通過語義理解「超市」、「家」的含義,又能調用用戶的個人知識庫,拉起地圖軟件自動導航到最常去的超市,並回家。

這就是 MagicOS 打造了 8 年之久的 Magic Live 智慧引擎,它能夠對環境、場景,用戶意圖進行全面的感知分析,建立起一套個性化的「個人知識庫」,將這些知識用於各種應用場景的前置判斷。這意味着不同的人向 YOYO 發出同一指令、問題,YOYO 會給到不同的回答,這與當下任何 AI 助手服務都不一樣。通過不斷進化的 Magic Live 智慧引擎,榮耀 MagicOS 爲 AI 增加了更多「感覺器官」,實現了個性化的智能。

與此同時,MagicOS 的「大腦」,即核心的魔法大模型也在不斷升級,在 9.0 上,得益於全新魔法大模型家族的加持,Magic Live 智慧引擎的能力再次得到了巨大提升,可感知的場景覆蓋從 40 個提升至 60 個,意圖決策場景則從 100 個上升到 600 個,用戶理解的類別從 600 升至 950 項。

當然,讓 AI 具備全天候不間斷的「感知能力」,也一定會帶來隱私相關的風險擔憂。這個問題其實自 Magic 系列手機誕生之初就一直存在,榮耀也做了很多配套的風險管理建設。在 MagicOS 9.0 上,所有個人化記憶、知識庫的數據都會在端側儲存,杜絕一切泄漏風險,且保證用戶可控、可查、可刪。

針對這一問題,榮耀產品線總裁方飛在接受採訪時表示:「我們有五項設計原則,最小化、透明可控、身份匿名、優先端側處理、安全保護等,這五個核心原則一直指導着我們在整個個人隱私和數據保護方面的耕耘,因爲 AI 部分的共性話題就是個人數據、個人隱私。」

除此之外,在端側大模型運行的功耗問題上,榮耀也考慮到了潛在的續航影響。全新 30 億參數端側語言大模型,相較上一代操作系統發佈的 70 億參數自研魔法端側大模型,功耗大幅降低了 80%,出詞效率提升了 500%。在採訪中,方飛同樣對榮耀的這部分表現表示了充足的自信:「大模型對終端廠家最大的挑戰是如何高效調用,包括整個功耗、性能如何達到最優,而這個正是榮耀非常擅長的,我們長期從事底層的硬件軟件開發。」

通過這一套感知智慧引擎,MagicOS 9.0 具備了對用戶意圖全面的感知、學習能力,爲 AI 打造了一套更敏銳的「感受器官」。這樣的 AI 在處理用戶的各種指令之前,已經有了一個完備的「語境」,最終減輕用戶的輸入負擔,且可以更主動地進行服務喚起,建立起語境。

下一步就是革命交互。

02

「立體」的AI交互界面

AI 落地應用的核心難題,是交互。

自智能手機誕生,「觸控」成爲當代最重要的人機交互方式開始,就不斷有企業宣稱要啓動下一輪交互革命。新一輪交互革命圍繞着「自然語言」展開,從手機自身內置的語音助手,到只能語音交互的智能音箱,再到以聊天機器人形式出現的大模型 AI 助手……核心就是讓用戶用自然語言進行輸入。

但經歷了這麼多年,企業和用戶都逐漸發現,儘管自然語言是門檻最低,人人都會的輸入方式,但它並非適配所有的場景。語音輸入有時不夠準確,以及很多時候我們也並不方便開口說話,文字輸入則又需要用戶有組織語言編寫提示詞的能力,這並非人人具備。

說到底,無論是單純的觸控,還是單純的語音,都是單一的交互方式,如果我們只是想暫停音樂,那用手按一下「暫停鍵」肯定比語音喊暫停要方便;但如果是要找一個很複雜,甚至我們自己都不知道在哪的功能,此時如果手機能理解我們的語音指令就會更好。

所以,AI 大模型既然具備多模態的理解能力,AI 交互的輸入輸出也應該變得更加「立體」。不只侷限於語音、文字、插入附件,而是應該進一步增加對用戶當前所處「狀態」的理解,把最方便的交互方式推送到用戶眼前。

比如在手機上的 AI,就應當嘗試理解手機屏幕上正在顯示的內容,而不是讓用戶重複地輸入。所以今年開始,大多手機廠商都開始加碼 AI「理解屏幕」的能力,利用大模型的多模態能力,直接針對屏上顯示的內容展開功能。包括圈選、搜索,這些也是過去 MagicOS 8.0 就已經實現的功能。

在 MagicOS 9.0 上,榮耀最大的革新在於推出了 YOYO 智能體。YOYO 和過去語音助手最大的區別就在於,它是一個真正時刻處於待命狀態的多模態助手。它不僅可以迴應用戶的語音指令,更是時刻保持着感知狀態,當用戶喚醒 YOYO 的時候,它已經把所有的前置信息整合爲了語境,能夠提前分析用戶的習慣,預測意圖,讓整個交互從以前的被動輸入,變成了類人的自然場景交互。

比如你可以讓 YOYO 幫你點個咖啡。其他大部分大模型助手此時大概率會給你輸出關於點餐的各種細節,在哪個平臺點、選哪一家店的哪些具體餐品……但對 YOYO 來說,你平時的習慣已經成爲了它的記憶,儲存在你的「個人知識庫」裡,它可以結合當下的時間、所處的位置,直接給到一個你很大概率想要的選項,可以自動進入外賣 APP 找到店鋪、選擇餐品後下單。

當然,這裡不是說 YOYO 能準確預測你想要的一切,但它能基於知識庫和環境感知,給到一個更大概率符合你需要的選項,如果這個選項在 70% 的場景下正確,那就可以幫你節省 70% 的輸入負擔。而這個學習和感知的過程是持續進行的,YOYO 能不斷在使用中自我迭代。

在 MagicOS 9.0 上,YOYO 智能體已經能完成 600 項需求意圖理解、950 項個人習慣記憶、270 項複雜任務規劃,900 項自動執行……就是說,在和 YOYO 交互的過程中,用戶是「口手結合」的。通過語音指令,它可以把你帶到正確的界面下,之後立刻可以通過觸控來更高效地調整細節,有時觸控到一半,碰到適合用語音交互的場景,又可以立刻用語音來解決。

而且,因爲智能體擁有「理解用戶意圖」的能力,這意味着用戶有時候不需要有明確的指令,而是可以說出一些模糊的想法,通過 AI 引擎來提供服務的推薦,完成複雜任務。

就比如同樣是在點餐的場景下,你甚至不需要發出「點咖啡」這個指令,而是可以模糊地表達「我困了,幫我點個喝的」,YOYO 也能從語義裡理解你需要的是咖啡,並基於你的「個人知識庫」,從你最常喝的咖啡品牌點你常喝的那一款咖啡。即便碰到了無法一次完成理解的場景,YOYO 也能夠進一步就細節進行追問,就是說與 AI 智能體的交互不再只有「成功」和「失敗」兩個選項,而是像真人一樣,可以通過持續的雙向對話,一點點接近你想要的目標。

總之,下一代 AI 界面的核心就在於「立體」。它可能要用到語音、用到相機,可能要直接識別屏幕,也會有滑動屏幕,點擊按鈕……但這些交互都不是獨立存在,而是流動的,用戶可以根據需要隨時切換到更高效的交互方式上,而智能體要做的,就是保持「待命」的狀態,並且不斷完善和增強自己的多模態信息處理能力。

03

爲AI接上執行的「手腳」

今天大部分的手機搭載的大模型 AI,大多已經能與廠商的一方 APP 緊密配合工作,但更大的挑戰在於,如何接入第三方生態。

iPhone 上搭載的 Apple Intelligence,就在這方面遇到不小的問題。它可以讀取 iMessage 的聊天內容、iPhone 自帶的通訊錄來構建知識庫,比如女朋友昨天跟你說過今天要記得買一袋麪包,Apple Intelligence 就可以把它轉化爲個人知識庫內容,在你問它今天要做什麼的時告訴你記得買麪包。但如果這個對話發生在微信等第三方聊天軟件上,Apple Intelligence 就無法將它轉化爲個人知識庫內容。

如果說 AI 的核心模型是「大腦」,感知和交互界面是「眼耳口鼻」,但最終,想要爲用戶真正「辦成事」,還需要強壯的手腳。今天大部分 AI 助手,在接到用戶指令後,都只能以文字、圖片形式輸出一系列「方法」,最後的執行這一步依然要用戶自己去做。

想要改變這一點,榮耀 AI 戰略的最後一塊拼圖,就在於「執行能力」。

想要讓 AI 實現自動執行,當然就需要打造一個跨系統、跨設備、端雲協同,具備流轉能力的平臺級 AI。如果讓更多服務都接入到智能體,用戶在發出指令,AI 理解後,就能直接調用對應的服務接口,自動完成最後一步的「操作」。

但想要讓 AI 接入所有的第三方服務,在今天看起來還有點遙遠,是一個理想。所以目前榮耀所做的,就是通過純視覺方案,來實現 AI 的「代理操作」。簡單來說,就是 AI 可以通過模擬用戶的觸控交互,執行用戶的指令。比如在點餐的時候,實際上 YOYO 並沒有直接與外賣 APP 的接口對接,而是通過模擬用戶的「搜索店鋪」、「選擇餐品」、「選擇定製化選項」、「下單」這一系列操作實現的。

純視覺的執行方案,就像是手機裡有一個和用戶一樣的智能體,它不只是能理解語音、文字、圖像等多模態信息,還能夠理解手機 APP 的功能和交互,能夠像人一樣在菜單點選按鈕、滑動屏幕。

在發佈會演示上,榮耀CEO趙明演示了一段智能體幫忙點咖啡的功能,智能體在點開外賣 APP 後,首先彈出了一個廣告,而在沒有任何預設的情況下,YOYO 智能體識別出了這是廣告,並點擊了關閉鍵,繼續執行下一步買咖啡的任務,每一步都和正常用戶的操作一樣。

這意味着,MagicOS 即便在第三方 APP 零適配的前提下,也能夠實現自主執行,這保證了當下的用戶也能立刻用上 YOYO,真正地在實際場景裡解決問題。

對榮耀來說,打造一個 AI OS 並不是大模型風潮後定下的短期目標,Magic 系列從 8 年前啓動之初,就開始了這場面向未來的漫長征程。在接受採訪時方飛坦誠表示:「MagicOS 8.0 的時候我們發了一個 7B 的端側魔法大模型,發完之後發現使用頻率並不是很高,所以後來我們通過研討,發現 AI 時代不是說做怎樣的 AI 技術,而是要做什麼樣的場景,能夠真正幫助消費者解決問題。」

很顯然,這次基於純視覺,即便零適配也可以完成任務的 YOYO 智能體,就是這一思路的最好體現。

但與此同時,榮耀也積極開放智能體能力。在發佈會上,榮耀宣佈向生態合作伙伴推出面向智能體的新一代智慧能力開放架構,並宣佈正式上線榮耀智能體商店。

而未來,通過開放生態的開發接入,這一切會變得更加簡單快捷。

在生態互聯的建設上,榮耀 MagicOS 一直走在行業的前列。MagicOS 7.0 通過「信任環」,第一次實現了跨系統、設備、生態的服務流轉,之後在 8.0 上,則通過任意門,可以基於用戶意圖識別,一鍵實現流轉,比如當用戶進入車裡,手機的應用生態就可以自動共享到車機上,可以直接從車機打開之前在手機上搜索的導航目的地,音樂。

而在 MagicOS 9.0 上,榮耀再次基於同樣的互聯思路,正在搭建跨端 AI 的生態,讓 AI 基於意圖識別能力,觸及更多服務,覆蓋更多場景。讓 YOYO 智能體成爲連接用戶、設備和第三方服務的橋樑。

通過強大的核心大模型,敏銳的感知引擎,立體的交互界面,以及開放的生態,MagicOS 9.0 已經搭建好了一套完善的 AI OS 框架,進化爲了「有靈魂的操作系統」,也展開了 AI 大模型落地應用的全新時代。

採訪中,方飛最後提到了 AI OS 的未來,她說:「我不認爲現在已經實現了最純粹的 AI OS,我們只是剛起步,可能找到了方向,可能走得比別人稍微快一步,但我覺得未來兩三年會發生一個鉅變,這個鉅變一定會到來。」