☰

大模型重塑智能硬件！人手一個智能助手的時代來了？

智東西作者徐豫編輯漠影

在生成式AI浪潮的影響下，智能硬件開始出現全新的人機交互體驗。

AI智能助手更有針對性地實時解答你的“十萬個爲什麼”；AI卡片錄音機能幫你實時轉寫會議內容，還隨手就羅列好了會議總結、要點分析和待辦事項；AR眼鏡戴上後就能看到文字、圖片、視頻中的實時多語言字幕；智能門鎖會根據來訪人士定製主人的聲音，模仿你的聲音取快遞、拿外賣，或者改變聲音語調以恐嚇無關逗留人士；毛絨小熊真的成爲孩子的知心朋友，可以一起聊聊煩惱、疑惑和心事……

可以預見，更智能化的多模態大模型賦予了智能硬件新的生命。

就在上週六，RTE 2024第十屆實時互聯網大會IoT分論壇圓滿結束。多位AI智能硬件賽道的資深人士齊聚一堂，共同探討如何讓“智能硬件產品們”迎頭趕上AI的好時代。聲網IoT行業負責人吳昌儒、曠視增值業務部負責人史澤鴻，海馬爸比聯合創始人譚國豪、佐臻科技技術經理徐偉恩、小米Xiaomi Vela開源負責人杜超、蓮偶科技軟件部總裁楊旺分享了他們在打通AI與智能硬件屏障方面的實戰經驗。

一、AI驅動多模態交互，人機互動更自然

在傳統的硬件設備中，人機交互大多通過按鍵、觸摸屏等圖形用戶界面（GUI）來完成。但隨着AI技術的引入，尤其是對話用戶界面（CUI）的崛起，用戶可以通過語音、視覺、手勢等多種方式與設備進行互動，帶來了更加自然、直觀的交互體驗。

“AI驅動的智能硬件不再單純依賴固定的功能按鈕或菜單，而是通過對用戶意圖的理解，圍繞用戶想要完成的任務進行設計。”聲網IoT行業負責人吳昌儒舉例說道，智能家居中，用戶僅用一句話便可觸發多個設備的聯動，說出“我要看電影”，AI系統隨之做出自動調節燈光、開啓電視、調整空調溫度等操作。這種基於任務導向的設計，讓用戶體驗更爲絲滑和智能，大幅減少了手動操作的繁瑣。

住着一個AI Agent的智能硬件不用再孤立工作，而是能夠與其他智能硬件之間形成互聯，彼此協作。也就是說，每個設備中的AI Agent都能獨立執行特定任務，同時也能根據需求與其他AI Agent協作，整體上是一個複雜且靈活的智能系統。

現場，其他與會嘉賓也圍繞各自產品或業務在AI方面的落地各抒己見。

長期以來，AI與AR的結合都是智能眼鏡的理想答案。對於聽音樂、拍視頻、翻譯等需求，不少市面上在售的AR眼鏡都基本能滿足，佐臻科技則爲AR眼鏡找到了更多個性化的應用場景。

其最新款的AR眼鏡不僅適用於跌倒檢測、呼吸監測等看護場景，還可以滿足AI或XR多人混合實時互動算繪場景的需求。也許在不久的將來，只要一副AR眼鏡，人們就能遠程觀展、跨國雲旅遊、多語言同聲傳譯、實時共享影片、異地協同查看雲端文件和3D模型。

按照徐偉恩的設想，裝備了AI引擎的AR眼鏡未來將即時提供更多個性化的反饋。舉個例子，你佩戴着AI眼鏡，剛好路過了一輛停在路邊的車，你多看了幾眼這輛車的Logo，AI眼鏡會猜到你可能對這個汽車品牌感興趣，隨之提供相關的信息。值得一提的是，這種呈現信息的方式是私人化的，可以降低人們對信息共享的顧慮。

在徐偉恩看來，聲網的語音交互技術充當了AI智能硬件實時人機交互的關鍵神經元。而AI智能硬件只有真正實現隨時隨地調用資料、與人交互、與環境交互後，才能與真實生活串聯起來。

當底層的語音技術還較爲稚嫩時，人們很難想象手上一枚小小的戒指，也能將AIoT的風吹到直播出海這一領域。

蓮偶科技最新的空間戒指TOALL L-Ring 2通過多模態大模型落地了錄音轉寫、AI對話、同聲傳譯等功能，有助於人們在直播、講課件、播放PPT、看電視以及駕駛過程中儘可能解放雙手。未來，外貿主播在直播過程中，戴上它“揮揮手”就可以完成口型視頻合成、情緒模擬、聲紋模擬、語音合成等，從而同步、同時生成多語種的直播間。

水準較高、穩定可靠的實時AI語音交互技術，可謂是AIoT的強心劑。AI智能硬件若能及時語音反饋危險情況，在關鍵時刻或許能“救命”。

基於高精度的數據訓練，海馬爸比的嬰兒看護機可以實時監測嬰兒的睡眠情況和哭聲，判斷嬰兒是否“遮臉”，並針對可能窒息的情況做出提醒。海馬爸比聯合創始人譚國豪告訴智東西，有了AIoT智能硬件技術的加持，新一代的嬰兒看護器對嬰兒哭聲、狀態的識別更敏感，可以及時發現吐奶等其他可能引發窒息的情況。現在，AI智能硬件或許比新手爸媽更能聽懂嬰言嬰語。

海馬爸比下一步計劃將這些AI智能硬件融入個性化育兒教育、優化睡眠的嬰兒房環境、互動式講故事、協作式育兒支持等場景，爲每個有娃家庭安排一個工作經驗“無上限”、具備專業知識的“智能保姆”。

譚國豪稱，聲網的AI x IoT智能硬件解決方案可以有效解決“自動化場景但被動化輸出”的AI技術應用困境，推動了智能硬件從工具轉向服務。在他看來，AIoT中的AI智能硬件不應是被動地監測和響應，而是生成有意義的內容，並與用戶展開有效互動。

小米則選擇用一個面向輕量AI智能硬件的系統“Xiaomi Vela”，來串聯起不同生活場景中的智能硬件。將來藉助該系統，小米的智能手錶、智能手機、智能平板和智能電視等硬件可以在其AIoT網絡中實現聯動。

曠視科技的AI生產力平臺Brain++已實現AI視覺算法的快速量產，並將其與智能門鎖、寵物智能用品、養老機器人、體育及訓練等場景相結合。

其中，在寵物智能用品方面，Brain++可以提供諸如寵物檢測、貓臉識別、貓砂檢測和寵物Vlog等功能。在智能門鎖方面，其可以實現生物特徵識別、人員分析、快遞和外賣提醒、兒童和寵物離家、鄰居隱私保護、AOV和時光濃縮等功能。

二、秒級人機對話，生成式AI盤活IoT生態

相較於觸控、空間手勢等人機交互方式，語音交互的技術和形態更成熟，上手難度也更低，在AI時代仍具有獨特的發展前景。吳昌儒提出多模態交互、對話式交互、大模型三者共同構成了AI Agent（智能體）。

同時，語音交互技術作爲AI智能硬件的底層技術之一，其即時性、準確性水平高低，在很大程度上影響着用戶的人機交互體驗。從“喂，Siri”，到紅極一時的智能音箱、故事機，再到當前快速迭代的多模態大模型，人機語音交互的體驗正在不斷優化。

吳昌儒認爲，實時、準確、跨平臺是AI Agent真正能夠引入智能硬件的關鍵，聲網AI x IoT智能硬件方案應運而生。該方案能夠在低功耗、低算力芯片上快速實現大模型的接入，具備低延時實時互動、低成本靈活適配的特性，通過豐富的功能在智能硬件場景中構建真實、自然的 AI 語音交互體驗。

例如其對交互延遲進行優化，語音交互延時低至1s內；支持多模態 AI 語義識別和理解；支持AI降噪，保證清晰的語音交互；支持小包體、低內存、低功耗；適配超70種主流、高性價比的芯片等，幫助開發者與企業快速構建適配自身硬件的 AI 實時語音對話服務。

聲網AI x IoT智能硬件解決方案進一步優化了端到端互動體驗，實現了人與設備之間基於大模型（LLM）的毫秒級互動體驗，並且在80%丟包情況，即網絡較差的環境下，仍能做到音頻通話流暢。

爲了讓整個集成更加簡單，聲網還提供了模塊化的組件。企業無需額外集成STT、TTS這些模塊化的組件，就可以達到音頻的端到端對話目的。

除此之外要讓AI聽得懂，收集的信息更有效，AI降噪算法和VAD控制是非常重要的一環。爲此，聲網自研了AI降噪算法，可以有效抑制鍵盤、腳步、雜音、嘯叫等超100種常見噪聲，同時爲了改善駕駛、商場等場景的收聲效果，也針對性地優化了算法。

在流暢和清晰的基礎上，聲網還追求語音對話過程中自然的交流感。其AI x IoT智能硬件方案支持AI-VAD技術，具有較高的語義理解能力，可以隨時打斷說話，模擬了人類對話時的真實反應。

除了推出內嵌多模態大模型的AI原生設備，AI智能硬件廠商還可以通過一套AIoT智能硬件解決方案和系統，複用現有的IoT資源，提供更進階的人機交互體驗。對此，聲網最新的AI x IoT智能硬件方案也能在兼容性和商業化落地上提供支持。

該方案適配超70種主流、高性價比的芯片或模組，包括展銳Cat.1系列芯片、樂鑫ESP32-S2/S3、BK7256、BK7258、傑理AC7916、博流BL808等RTOS芯片，以及高通、聯發科、君正、Sigmastar、全志、海思、Mstar等Linux芯片。

//oss.zhidx.com/uploads/2024/10/672332bed7ef7_672332bed3822_672332bed37fe_IoT視頻（已壓縮）.mp4

在低功耗、低算力芯片上快速接入多模態大模型這一特點，解決了部分採用端側AI的智能硬件由於算力不足，AI功能開發受限的痛點。這也意味着，許多做IoT的企業可以利用聲網的模塊化組件快速掛上AI Agent，擁有AI能力，並獲得新的商業化引擎。

總的來說，聲網的AI x IoT智能硬件解決方案針對生產力、情感陪伴、穿戴式裝置優化了AI語音交互體驗，具備低延時實時互動、低成本靈活適配的特性，從而在智能硬件場景中提供真實、自然的AI語音交互體驗。

結語：AI智能硬件越來越有人情味

不少AI智能硬件上下游廠商關注到一些更具有人文意義、更貼近人性的領域。

聲網爲獨居人士提供了AI對話式的智能門鎖解決方案；曠視科技自研算法生產平臺AIS首次應用於非遺文化保護；海馬爸比爲自閉症兒童推出了一款心理諮詢機器人，心理醫生可以通過此類機器瞭解到患者更真實的想法，從而提供更準確的心理療愈方案。

有了AI Agent的加持，物聯網中各個組件之間可以更高效、靈活地通信和任務調度。AI智能硬件的角色也從“管家”變成“衛士”，未來不僅可以幫人們減少一些重複性的勞動，還可以執行更多人們原本難以兼顧的工作。

大模型重塑智能硬件！人手一個智能助手的時代來了？

相關資訊