☰

直擊WAIC2023|曠視科技CTO唐文斌：多模態會是大模型的未來

《科創板日報》7月8日訊（記者黃心怡）當ChatGPT激起的大模型浪潮涌入國內，原本深耕與AI賽道的企業們，被認爲是站在風口之上的那批。

在世界人工智能大會2023上，曠視科技聯合創始人、 CTO 唐文斌接受了《科創板日報》的採訪，他指出，相比語言模型，增加訓練數據量和參數量對於計算機視覺模型的提升和收益，目前看並沒有那麼大，而多模態會是大模型的未來。

談及國內外在大模型方面的差距，唐文斌坦言，不管是基礎語言模型、還是多模態模型上，都存在一定的距離。“不過，這是可以迎頭趕上的。在應用的探索上，也處於相對初期的狀態。但未來會是繁榮的生態。”

算力和數據被稱爲大數據研發的兩大挑戰。“算力緊缺確實是當前的最大難點。其次，在數據方面，英語語料的質量比中文要高很多，這也對中文大模型的研發增加了瓶頸。”唐文斌提到。

除了基礎大模型，行業大模型、企業專屬模型已經成爲AI落地的討論焦點。對此，唐文斌表示，技術最終要結合場景才能明確其產生的價值。“所以，未必會是一個模型就能大殺四方，可能會提供一些通用能力，成爲支撐上面的所有不同垂直應用的底層和基座。但從落地的角度，還是會從垂直領域先開始。”

尤其對於企業來說，數據隱私和安全性會是首要的考量因素。“比如，要把公司的知識庫上公有云，對於不少企業來說是存在風險的。因而專有化部署，結合相關技術來保證數據不外泄，是存在一定的必要性。”

過去，AI公司主要依靠計算機視覺算法能力佔據市場。而ChatGPT大火讓業界把更多的目光投射到了自然語言預訓練模型上。談及曠視科技後續是否會有類 ChatGPT 的計劃，唐文斌表示，“曠視不會單獨做Chat類的應用，但對於GPT的底層模型能力，曠視一直在做研究，特別是多模態和數理邏輯方面。”

曠視CEO印奇曾強調，公司的戰略方向非常堅定，即沿着AIoT、AI in Physical這一路徑。唐文斌介紹，公司會較爲專注把AI能力應用在物聯網的場景，應用在物理世界之中。

“以物流領域爲例，大模型技術有助於我們進一步彌補機器與人之間的鴻溝，提升無人叉車、AGV機器人等在倉儲物流的流程上的效率。”

ChatGPT大火，也讓業內對於邁向人工智能的未來有了更大的期待。而唐文斌認爲，在AI的通用性和泛化性上，現在仍爲時尚早，而曠視在“大模型變小”上已經開展了探索。

“曠視已經在嘗試把算法量產。比如，當通用能力大模型在不同場景之中應用時，由於無法承擔那麼大的計算量，所以就用大模型來教一個小模型，通過這樣的方式，來實現算法在長尾場景的量產供應。”

相關資訊