放棄華爲天才少年 Offer、和陸奇 10 分鐘定投資,25 歲的關超宇想讓鋼鐵俠成爲現實 | AGI 技術 50 人

【編者按】在人工智能的世界,有一羣人正深耕於推動通用人工智能(AGI)從科幻走向現實。CSDN、《新程序員》特別策劃,挖掘 AI 背後的思考,激盪 AGI 的智慧,走進那些在 AI 領域不斷探索、勇於創新的思想領袖和技術先鋒們的心路歷程。

本期我們的主角是清昴智能的創始人關超宇,也是目前“AGI 技術 50 人”年齡最小的嘉賓。出生於 1999 年的他,是年齡最小的清華研究生特獎得主,拿到了華爲天才少年的 Offer 卻沒有去,而是基於想把鋼鐵俠變成現實的夢想,從 AI Infra 底層開始創業。

作者 | 唐小引、王軼羣

出品丨AI 科技大本營(ID:rgznai100)

2021 年底,ChatGPT 還沒有問世,大模型還沒有席捲成風。此時年僅 22 歲、即將從清華研究生畢業的關超宇面臨着三個選擇,繼續讀博、去大廠還是創業呢?關超宇內心有點迷茫。此時他已經是清華大學最年輕的研究生特等獎得主,獲得了“西貝爾學者”稱號,是世界首個自動圖學習庫 AutoGL 的首席架構師,同時還手握着令人豔羨的華爲天才少年的 Offer。

一樣的迷茫曾在 16 歲的關超宇內心也上演過。1999 年,關超宇生於河南新鄉,儘管這一年是互聯網巨頭誕生年,互聯網已經在國內開始高速崛起,但關超宇直至上了高中通過計算機課才接觸到編程。2015 年,面對高考志願的填寫與選擇,對於五花八門的專業,關超宇不理解專業的區別究竟是什麼,這個時候他選擇謀定而後動,由此進入了上海交通大學的工科試驗班,不着急做專業細分,先研究再選擇。也是在這時,他有了自己的初心——希望讓科幻世界裡的鋼鐵俠成爲現實。

但是這個夢想要想實現頗爲不易,它需要各種技術的完善與組合。關超宇發現,未來世界的根基關鍵在於 AI ,而 AI 的根基則很大程度上在於如何才能真正實現並落地。

鋼鐵俠之夢讓他選擇了計算機系,也讓他在 2021 年再一次面臨人生分岔路口選擇之時,放棄了去大廠、讀博,而走上了 AI Infra 的創業之路。他與大學同學和研究生師弟一起合夥,聚焦 AI 模型推理優化與芯片適配的清昴智能由此誕生。公司核心團隊包括 CEO 關超宇,清華大學計算機系教授、清華大學大數據研究中心副主任朱文武擔任首席科學家,也是關超宇的研究生導師,前華爲資深工程師、上海交通大學學士、新加坡國立大學碩士姚航擔任 COO。

成立不足兩年,清昴智能發展速度驚人,推出了 AI 大模型推理部署加速工具庫 MLGuider,優化模型的推理和部署環節,降低 AI 模型的使用門檻,致力於解決 AIGC、自動駕駛、AIoT 等領域複雜 AI 模型的落地難、性能差、資源耗費高等問題,從而打破當前中國面臨的算力瓶頸。清昴智能和華爲、AMD 等業內領軍企業開展了多方位的合作,先後已獲得了四輪融資,投資方包括奇績創壇、綠洲資本、華爲哈勃戰投、啓賦資本及達晨財智。

本期《AGI 技術 50 人》對話清昴智能 CEO 關超宇,在我們大多數人還是剛畢業成爲職場新人的年紀,關超宇已經是積累了豐富行業經驗和獨到見解的高潛力 AI 創業公司 CEO。一起透過他的成長經歷、創業及 AI 思考,找尋未來 AGI 之路。

AI 天才少年:興趣總是比課程先行一步

《新程序員》:你最早是什麼時候開始接觸計算機,是如何開啓編程之路的?

關超宇:小學時,邏輯和數學比較吸引我,也會自學奧數。但真正接觸編程是高二在學校上計算機課的時候,課裡有一小章節是講編程的,讓我覺得把一件事情變成一個非常標準化的程序交給機器去做,從而解放人力,避免重複勞動。這一發現對我而言意義非凡,激發了我對高效自動化處理方式的濃厚興趣。當然,老師其實也沒有講太多的編程課,我就去網上查一些資料,當時是讀的是譚浩強版的《C++編程》,那時也只是學了一些皮毛。

《新程序員》:最開始接觸的語言就是 C++,那你的起步門檻還挺高的。

關超宇:那個時候還學了許久的指針、數據結構,最開始我用的 IDE 還是 Visual C++,挺古老的編譯器。

《新程序員》:有自己摸索着寫什麼程序嗎?

關超宇:高中時我還沒有計算機,用的都是學校的,只有上課時才能用,一節課 40 分鐘其實也做不了什麼,而且下課電腦就重置無法長期保留,所以我只寫了一些簡單的程序,模仿 C++ 書裡的一些 Demo,比如做成績的錄入和分析系統,但都是 cmd 命令程序,沒有可視化窗口。

到了大學就寫了一些小項目,比如實現能統一 QQ 音樂和本站音樂的播放器,通過調用 API,統一兩個應用的歌單。大三時我已經偏向人工智能與機器學習的方向,就用 Python 和 PyTorch 做了一些研究。

《新程序員》:大學怎麼開始研究人工智能的?

關超宇:我通過工科試驗班進入上海交通大學的第一年,課程設置並未明確專業界限,大一的時候學習了以 C++ 爲主的編程課程。到大二時學科分流,我正式進入了計算機系。從這時開始我才接觸到一個叫“人工智能”的概念,它和我理解的具備確定性特徵的編程思路不太一樣,有點類似於概率事件或概率建模。我感覺這又是一件非常令人新奇的玩意兒,人工智能可以創造一些原來沒有辦法用標準的數學語言或規則去描述的系統。

因此,在大三老師講人工智能的課程之前,我就迫不及待地在 CSDN 等一些技術網站上,搜人工智能入門的講解,當時最有名的是斯坦福大學的《CS231n:用於視覺識別的卷積神經網絡》。我跟着學了一個暑假,它讓我真正入門了人工智能。

後來,我有幸在趙海老師(上海交通大學教授)的實驗室做了兩年研究。當時趙海老師帶我做的研究方向剛好就是自然語言處理,在做一個語義角色標註的很細分的方向。那是 2018 年,BERT 尚未面世,行業內更多的還是以 Word2Vec、GloVe 這樣的一些預訓練的 Embedding(嵌入)爲主,再在上面做一些架構設計。當時,我接觸到了 2017 年發表的那篇在機器學習領域具有里程碑意義、提出 Transformer 架構的論文“Attention Is All You Need” ,我把它與基於 LSTM 的模型做了結合,去解決語義角色標註的問題,那是我第一次論文投稿,改了很多次又投了兩三次,最終被 NAACL 期刊接收。

在大三下學期和大四上學期,我獲得了由學校組織的去微軟亞洲研究院訪問研究的實習機會,在微軟跟着謝幸老師(微軟亞洲研究院資深首席研究員)和王新兵老師(上海交通大學教授),做推薦相關的工作,當時的工作組叫 Social Computing,也是和 NLP 相關的領域。

那是 2019 年底,BERT 熱度很高。我們基於一些可解釋的方法,分析了在 NLP 中常用的主流深度學習模型,分別是 CNN、LSTM、BERT、Transformer,分析其如何構建輸入概率建模,包括每一層是做什麼,用信息論的方法去分析理解。當時我對 NLP 相關的一些研究進展已經比較熟悉了。

藉着微軟的契機,我獲得了保研清華的機會。微軟實習期間,非常碰巧的是,一起工作的王新兵老師是從清華出來的,而謝幸老師和清華大學的朱文武老師關係很熟。我在微軟實習期間的表現很好、工作效率高,老師們也都比較喜歡,聽說我在保研要選擇學校,就把我介紹到了清華。

研究生階段,我跟隨朱文武老師做自動機器學習相關的研究。當時,朱老師帶領的自動機器學習組剛成立。而實驗室裡的張文鵬博士此前帶隊參加了 NIPS 2018 自動機器學習挑戰賽拿下了全球第二、高校第一的成績。讓我覺得自動機器學習是一個未來非常有前景的研究方向,由此走上了 AutoML 之路。

我後來的研究也都是將 NLP 和 AutoML 相結合的工作,在學術和代碼層面做了諸多嘗試。本科階段我是打開了人工智能的大門,而研究生階段則不僅是持續做研究,也由最初作爲隊員參加比賽,到後來作爲隊長帶領實驗室的整個自動機學習組去參加各種比賽和研討。我們 AutoML 組當時還開源了一個比較有影響力的一個項目 AutoGL(用於圖數據的自動機器學習框架和工具包),在 GitHub 上也有上千 Star 了。總之,我在各個領域都有過嘗試。

《新程序員》:開源 AutoGL 是出於什麼樣的考慮?從接觸到做開源的過程中,對其理解有什麼變化嗎?

關超宇:接觸開源是上大學時,當時沒有很深的理解,好多問題都是從網上搜來的,包括 GitHub、CSDN,最開始對開源的理解就是知識共享,方便大家能夠信息對齊,對新手來說,能夠站在巨人的肩膀上前進。

學術界非常推崇開源,開源能夠有力地推動學術研究的進展,我最開始的研究其實也都是建立在巨人的肩膀上。我們爲什麼要做 AutoGL 這個開源庫?其實有兩方面原因,首先是開源庫能夠讓大家更好地接受,而且開源還有一層意思是共建,在開源社區裡大家會對你的項目提問題給意見。其次,導師經常與我們研討如何提升學術研究的影響力,當時覺得開源是一個非常好的形式,能夠讓大家瞭解我們實驗室做的一些研究,哪怕是作爲 Baseline 復現的工具也可以。

我一直以來對系統構建都比較感興趣,最開始做 AutoGL 時,也沒想做成一個研究成果,我們要解決的是自動機器學習在圖像領域的問題,當時還沒有統一的標準。我們看到儘管學界有很多文章和方法,但研究者調用各種庫時卻非常困難。我們實驗室在這方面也有一些成果發表,我的想法是如果能更方便大家去做實驗,幫助大家基於已有平臺在研究層面少做一些代碼開發的工作,對我們後續的研究也會減少重複勞動,從這個角度是很有價值的。

《新程序員》:你拿到了華爲天才少年的 Offer,但沒有去華爲,也沒有選擇繼續讀博,而是最終選擇了創業,這是爲什麼?

關超宇:2021 年底畢業前夕時,我面臨着工作或者繼續深造的選擇。關於這個選擇,我和老師、同學都聊了許久。那時大模型還沒有火,我面了幾個大廠,但總感覺那份工作並不是我想要的,進去可能就是作爲一個螺絲釘的角色。我希望我做的事情,一方面是我喜歡的,另一方面是我能掌控的。而對於讀博,我本身是一個比較喜歡新事物或挑戰的人,研究生期間在研究上各條路也走過,包括做開源、打比賽等都有探索,大概清楚做研究是一條什麼樣的路。我上學中間跳過幾級,小同學兩歲。這兩年是我的機會,相當於我有額外兩年時間可以探索其他的事物。

所以,我也在考慮創業的方向。和老師聊了許多次,老師非常支持我創業的決定。當時做過簡單的市場調研,發現在人工智能與 AutoML 領域有着非常多的應用,在實驗室也有許多合作項目以及合作案例在落地。讓我覺得這是一個比較適合創業的時間點。而我最開始的創業方向其實並不是做大模型,而是面向邊緣設備的模型優化。

不打一天工,從 AI Infra 入手讓鋼鐵俠成爲現實

《新程序員》:很多 AI 創業並不會選擇這麼底層的一個賽道,你是怎麼考慮的?爲什麼會選擇走這個方向?

關超宇:有內因和外因。內因是我們實驗室本身的研究背景就在這一層。最開始做邊緣節點上的 AI 也是實驗室的研究方向之一。我研究生期間也做過邊緣計算、自動機器學習、架構搜索的研究。其中一個目標便是要解決在算力資源有限設備上如何找到一個更合適的 AI 模型,並且是讓機器自己來找。外因上,市場也有這方面的需求。我們最開始是主打一些 AIoT、自動駕駛等場景。2022 年底,我出來創業,拿到的第一筆投資就是來自陸奇老師。

於我而言,更深層次的可能與我的成長曆程有關係。我在河南新鄉長大,在學校時並沒有和互聯網或者與外界交流的渠道,都還沒有手機,並不知道外面是一個什麼樣的世界,每天都是在學習。高中時目標明確,就是要考個好大學,但到大學後,視野完全變了,目標也不確定,沒有人告訴你在大學裡也一定要學習拔尖,周圍老師、同學的狀態完全不一樣。同時我也擁有了自己的手機、電腦,能夠隨時隨地瀏覽網絡,這個階段對我像是第一次信息大爆炸,讓我有點困惑。

我在高考填志願時都不知道那些專業究竟是什麼、有什麼區別,聽到計算機、微電子、電氣工程這些名詞時,我壓根都不知道未來是要做什麼,能夠獲取信息的渠道也十分有限,這也是我爲什麼會選擇工科試驗班的原因——先不着急做下一步的細分。我花了很長時間去研究各種科目,到面臨分流選擇時,我第一次填的是微電子,我當時的想法是:我要做一個像鋼鐵俠那樣的人,做一身很酷的裝備。微電子的老師說:你來我們所,就可以做這種裝備。後來經過了一年的時間,我發現要想實現,最核心的還是靠 AI,所以後來最終選擇了計算機系。

《新程序員》:所以你的終極想法是讓鋼鐵俠成爲現實嗎?

關超宇:對,這是我的目標之一。科幻片描述出來的一個信息化、智能化程度非常高的時代是非常吸引我的。不僅是有自己的機器人,像虛擬現實、增強現實這些技術,如果真的發展比較好的話,對我們的生活方式幫助是非常大的。

《新程序員》:諸如鋼鐵俠的全息投影、VR/AR 這些技術已經發展多年,但仍然在探索中,你想的是更宏觀還是更細節的維度?

關超宇:我可能是偏更宏觀的,科幻片裡描述的世界,像是把真實的物質世界變成一個有像唯心的世界。如果技術能夠發展得很好的話,人可以去改變或操控周圍的環境。我感覺這是一個非常令人興奮的事情,也和目前創業的研究方向有關係。那是一個非常宏大的終局,想要到達,需要各個學科的發展都非常完整的情況下才能實現。

基於目前所積累的一些技術路線,我認爲未來世界的根基關鍵在於 AI ,而 AI 的根基則很大程度上在於如何才能真正實現並落地。這也是我們爲什麼要選擇一個非常底層的創業方向,做 AI Infra,能夠讓模型真正在現實世界中達到良好的效果,這是我選擇創業方向的邏輯。

和陸奇的極速 10 分鐘:技術方向和團隊是決定性的因素

《新程序員》:剛創業就拿到了奇績創壇的投資,和陸奇博士有聊過嗎?

關超宇:我覺得可以說是雙向奔赴,陸奇老師是一個非常拼的人,奇績的團隊找新項目也非常拼。他們是在技術領域非常專業的一家基金,比如會去找頂會論文發表的清單,找一些可以商業化的方向和論文。由於論文作者通常會掛上郵箱,於是他們會通過郵箱來聯繫作者,說你的研究非常有落地價值,願不願意一起來做科技成果轉化的事情。

在我萌生創業想法時,剛好收到了他們的郵件,同時身邊的人對奇績創壇的評價也頗高。我就回復郵件走了奇績的流程,和陸奇老師是有一個 10 分鐘的快問快答環節,做過一些交流。

《新程序員》:這 10 分鐘是第一次和陸奇博士接觸嗎?有哪些信息上的交流?

關超宇:對。這更像是他們的面試流程,而不是坐下來一起探索什麼方向。他們看項目的方式比較特殊,10 分鐘的時間裡,會問到怎麼收費、商業模式是什麼、未來的技術演變方式如何,爲什麼是你這個團隊、爲什麼是現在開始創業……通過諸如此類的一些問題來判斷這個項目是否合適。

《新程序員》:聊下來覺得自己的項目最打動對方的點是什麼?

關超宇:他們比較偏技術,我覺得技術方向和團隊是讓他們做決定的因素。

《新程序員》:奇績創壇很講究技術驅動以及創始人的技術背景。在創業的起步之初,團隊是怎樣的構成?

關超宇:最開始有三個合夥人,分別是我、學弟陳虹以及我的本科同學姚航,分別擔任 CEO、CTO、COO。我的學弟陳虹,現在是博四在讀。我倆從我研究生進實驗室時就很熟,他在同一個實驗室跟着另一位同學做研究。到我研二時交流逐漸地多了起來,經常交流一些研究上的進展,他就坐我隔桌,一些比賽也是我作爲隊長帶他打的。我們之間有很深的技術和工作上的互信根基。當我說有創業想法時,他非常支持我,就加入了進來。他現在會參與創業,但由於博士尚未畢業,不是全職的狀態,公司的技術我帶得更多些。

我在上交大本科時就和航哥(姚航)一個班,大二時他是班長,我會主動幫他分擔一些班級事務,做一些信息通知和收集的工作。和他工作非常地舒適,他能夠調動大家的積極性,是一個讓大家更有向心力、凝聚力的角色。我們班級規定班長每人不得連任一年,所以到大三時我就擔任班長,而姚航則來支持我的工作。我們倆從學生時代就是一個很好的搭班子的組合,建立了深厚的友誼。

關超宇(右)和姚航(左),創業起步之初留下共同合影

後來他去新加坡國立大學讀書,畢業後去了華爲,做鏡頭模組相關的工作。有一次他出差來北京到清華看我,正好是我想創業的時候,聽說我想創業,他非常激動,義無反顧地想加入。他是一個非常信任我的人,堅信跟我一起能做有意義的事。就是這樣一個非常好的哥們兒。放棄了在上海的華爲工作,跟我一起來北京創業。最開始的時候,奇績創壇那筆投資還沒進賬,我們就是花自己的錢,姚航拿出了自己的積蓄,而我則是把手裡有的獎學金都用上了。在辦公場地上,奇績創壇提供三個月免費讓公司過渡的場地,而設備則來自學校的實驗室,我們就通過各種“白嫖”資源的方式開啓了創業之路。到現在,我們的團隊已經有 30 多人,越做這個方向就越覺得缺人,現在還在招人。

《新程序員》:從 3 人到 30 多人,體量發展還是很不錯的,在團隊增長上是怎麼考慮的,是否會比較在意人才密度?

關超宇:我們覺得這個崗位真的有必要招新人進來纔會招,會做嚴格的篩選,有一定的入職門檻。這個行業對專業度有着比較高的要求,如果一個新人進來需要長週期的培訓,對創業公司而言是極爲耗時的。現在團隊正在擴張的原因是,很多項目已經到了落地、交付階段,我們的商業模式還沒有完全定型,做定製化的交付項目,確實是需要人力投入。

《新程序員》:定製化項目意味着成本會更高。

關超宇:對,它不是標準化的產品,我們做的是軟件 toB 類的,客戶在產品上會有很多自己的想法,也需要實打實的投入。

天天都在遇難題,技術只是創業的敲門磚

《新程序員》:創業至今有什麼心得體會,自己遇到的最大難題或挑戰是什麼?

關超宇:我現在的理解和剛創業時是完全不一樣的。最開始時想法很簡單,我們有技術,能做出性能最好的產品,交給客戶就完事了。還沒有想過要做多大、怎樣完成,當時是沒有認真思考的。現在一路走來,發現技術其實只是創業的敲門磚,往後更多拼的是什麼?一方面是怎麼定義一個好的產品,怎麼做標準化、規模化,就是迴歸商業本質,怎麼用最少的成本,獲得最大的利益。如果還以完全項目制的方式做,可能並不是長遠可持續的。

另一方面,是戰略上的考量,包含選擇的維度和標準,我們做的是很細分的賽道,但在這之下有更細分的,如何去排優先級?比如 AIGC 的性能優化,就有很多不同的模型、架構,底層有各種各樣的國產、邊端硬件,都需要排優先級。這些優先級其實就決定了是一個怎樣的市場和增長。

還有公司的願景和目標,我們的終局市場,5 年、10 年之後公司應該是個什麼樣子、會有什麼樣的業務?這都是做好一個公司需要思考的問題。還有更實際一點的,包括內部的人員管理、組織管理、項目進展的管理以及與客戶的溝通等等,每個細節都要做好。我感覺創業是一件需要敬畏的事情,一旦選擇去做,就必須要把每個環節做到起碼沒有短板。

挑戰和難題則太多了,每天都在遇到。我們現在需要交付的項目很多,如何管理每條線的進度,關於這個問題我們內部一直在開組織紀律會。同時,團隊人數上來了,大家如何配合來一起完成項目,也會存在問題。如果問題出現,該如何公平地解決。之前我們都沒有 KPI、OKR 的指標,現在也在逐步實踐。

《新程序員》:所以還是在團隊協作和項目管理上的挑戰,技術上是沒有遇到難題嗎?

關超宇:技術上的話,可能我是技術出身,感覺技術上的挑戰相對來講沒那麼難,通過研討、調研,都是可以找到出路的。

《新程序員》:在技術的基礎上,要去考慮產品、商業模式、團隊、融資,和不同維度的人打交道,你覺得自己有短板嗎?

關超宇:我其實還挺有短板的。如果只有我一個人,那麼我是做不好創業的,一路走來非常感謝支持我的團隊,包括姚航和陳虹。我更偏技術,做技術帶隊、未來方向的研判,我是擅長的。但在對外溝通上,我其實還是挺內向的一個人,雖然有點不情願,但我是公司的一號位,也是要出面去做一些溝通。而航哥則是個非常外向的人,喜歡與人溝通,所以我的短板剛好也是與團隊互補。

《新程序員》:聽下來其實你會更希望在技術上立足好,朱文武老師的參與度是怎樣的?

關超宇:朱老師更偏學術,一方面給公司背書,另一方面提供學校更前沿技術的研究支持,他在業界的影響力也有一些商業資源的導入。朱老師是大後方的支援型角色,一線的產品構建、客戶交付的事不是深度參與的。的確,我目前是一個半技術半商業的角色,需要統籌戰線。我們現在也在物色一個更偏商業的 CMO 的角色。

從技術研發到價值實現,尋找 Product Market Fit

《新程序員》:創業以來,團隊實現了哪些重要的成果與進展,今年團隊的重點工作集中在哪裡?

關超宇:我們現在把自動機器學習的思想用到做推理 Infra 上去。可以稱之爲里程碑式的進展是,去年我們在英偉達和 AMD 的平臺上構建起了端到端的推理系統,同時近期我們商業化的產品也會陸續發佈,在國產芯片上適配完成的產品、面向數據中心的算力平臺的產品也在逐漸成熟。

去年我們的重點更多是在研發層面,今年已經在找合適的商業模式,圍繞怎麼創造價值去展開工作。去年 7 月份的里程碑還是偏向文生文的語言模型架構,今年我們會在文生圖、文生視頻的領域去做產品特性的補充。AI Infra 總是要圍繞硬件和模型做產品上的迭代,也需要響應客戶的新需求。

《新程序員》:您在產品矩陣的構建邏輯與思考是怎樣的?

關超宇:創業最開始,一個前輩說的話讓我覺得很有道理,其實奇績創壇傳達給我們的信息也是一樣,就是創業一定要找到 PMF(Product Market Fit,產品市場契合點)。如果說我想做一個產品就要投入人力物力去做,做完之後再去找市場,這樣會浪費很多精力。我們也思考過很多產品形式,做出來了,但在市場推廣的時候遇到問題,特別是去年上半年到年中,大模型的應用場景其實大家都還沒想明白,客戶有的時候並不需要平臺,而是解決方案。我們需要先幫客戶搞明白產品能用在哪裡、場景是什麼,目前客戶需求上還沒有到需要不斷迭代探索的階段。

在 ToB 的交付,我們還是偏一體化的模式。大模型的常規就是工程化構建的流程,至少在英偉達上是有對標這個方案的技術,但國內廠商其實缺乏這樣的一環。所以像數據中心這種平臺,如果企業要把國產卡用起來,是缺乏適配路徑的,所以我們的商業化思路就是往這方面去推,已經在跟一些數據中心和雲廠商圍繞這樣的產品做落地了。

產品矩陣上大概分爲三層。最底下是硬件,圍繞硬件也有推理器的產品,就是結合友商的硬件加上我們的軟件,爲客戶提供推理上的一個端到端的服務,這塊我們交付給了一些垂類 AI 的公司,他們把自己的模型放在推理器上。再往上,就是純軟部分,我們有類似於 SDK 鏡像封裝的產品,比如交付給雲廠商,雲廠商在雲商店或者 MUD 服務裡直接集成了工具棧,我們按照算力分成或者按照授權費實現商業化。

最上一層的平臺,更偏向 PaaS 的屬性,集成在企業自己的算力中心、數據中心,以及正在構建的計算中心場景。

我們的產品就是這三個層級,我們核心的還是在面向不同的硬件構建的統一的推理技術棧,也就是 MLGuider(面向多芯片的統一推理框架)。

《新程序員》:在創業中有沒有一些經歷波折又改進的例子可以分享?

關超宇:工程化這個領域跟模型研究領域還不太一樣,模型上各種因素都會影響最終結果,不確定性多一點,工程化這塊兒相對來講比較確定性。比如做算子融合或者說做優化,它能夠實打實降低延遲,就是減少了一部分數據搬移。我們更多是用自動機學習這套思路來去完成不同卡的一個就是調優,面臨的問題是一個問題會有多個解法,這些解法可能都會帶來增益,但哪個是最好的,是需要做判斷的。比如,我們在算子優化的不同階段用兩個計算圖的話會很慢,把兩個計算圖融合在一起就會提升效率。

《新程序員》:目前你瞭解的有哪些同樣在做 AI Infra 的團隊,你認爲大家的區別和側重點分別是什麼?

關超宇:從我目前得到的信息來講,潞晨科技是做得比較成熟的,他們一直專注於訓練,在大規模的分佈式的系統上的優化經驗和成果比較突出的,近期也是有一些推理的技術棧出來。在推理業務上,無問芯穹也是清華電子系非常有名的團隊。我之前和汪玉老師(清華大學電子工程系系主任、無問芯穹創始人)聊過,他們現在更偏向於重資產類型的投入,會有自己運營的算力中心,未來會朝着硬件化的方向,擁有自己的推理硬件及模型。我覺得他們是在展開做更大的事情。

袁進輝老師也在創業做新公司硅基流動,特別圍繞英偉達相關的優化,也在做商業化落地,最近也看到了一些國產芯片。

還有兩個團隊,一個是中科加禾,是中國科學院出來做編譯器層面的團隊,旨在解決底層邏輯不一樣的情況下如何做好遷移的問題。

清華高性能所也出來了一個團隊,叫清程極智。他們的技術思路也是更偏編譯器這層,而商業化有點像無問芯穹,也是承包商業中心的建設,去做訓練、推理,提供圍繞國產芯片的訓練推理平臺。另外還有基流科技(創始人胡效赫畢業於清華大學)聚焦網絡優化,也是一個非常不錯的團隊。

《新程序員》:和你們比較像的是哪家公司?

關超宇:跟我們商業化思路比較像的是袁進輝老師的硅基流動。袁老師從英偉達入手,我們從創立開始其實一直在跟 AMD 合作,在 AMD 的適配上做了很多工作。我們國產化硬件的打法是先打標杆。和昇騰合作,目前我們推理的工具鏈已經適配了昇騰的全系產品,還有對大語言模型的支持,現在主要還是以 Transformer 架構的模型爲主。

《新程序員》:在昇騰生態裡,你們所帶來的效益主要是在哪方面?

關超宇:我們跟昇騰的合作會更偏底層,MindFormers、MindSpore、PyTorch NPU 是可以支撐用戶在上面把任務跑起來,但面臨的問題是,由於這些框架它們本身並非 AIGC 原生,導致對 AIGC 模型效率的支持並不好。如果直接跑的話,效率可能和主流相比偏低。我們在昇騰生態裡做的事情其實就是希望在 AIGC 的範疇內,構建一種更標準化、通用化的解決方式,讓適配國產更便捷和順滑。讓用戶不需要用 A 卡時必須要用 A 的工具棧,B 卡必須用 B 的工具棧,因爲這對用戶而言是一件非常麻煩的事情。

現在的大模型,好比做英語完形填空的我

《新程序員》:當前在 AI 算力上,英偉達的壟斷性生態很強,爲什麼沒有選擇與英偉達合作?

關超宇:我們的判斷是,從目前的情況來講,英偉達的壟斷程度在下降。我們立足的還是國內的市場,國內需要做的是如何讓國產卡更好用起來。無論是商業層面上,還是情懷也好,都是更緊迫的事。

《新程序員》:怎麼觀察到英偉達的壟斷程度在下降?

關超宇:至少從我們目前優化過的一些經驗來看,只說推理這塊,目前市場上大家比較認可的英偉達推理方案,更多還是 4090 這種消費級顯卡產品。

我們現在觀察到的是,AMD 也在逐漸追趕,其最新的一些消費級產品,已經能夠從性價比上追平甚至超過 4090 了。

AMD 與英偉達的差距是缺乏軟件棧這一層,畢竟英偉達積累多年,短期內沒法趕上。但從硬件指標以及成本控制上,未來不管是國際還是國內,肯定都會傾向更多元化的選擇,特別是推理。

雖然說從絕對性價比上來看,國內的顯卡還處在追趕階段,但這是一個機遇,現在模型的架構正在收斂,都是圍繞 Transformer 的架構做變化。對硬件來講,其實有一個更好的標的去在硬件架構上做調整和優化。

《新程序員》:你對大模型架構演進的看法是怎樣的?

關超宇:Transformer 證明了它的 scaling 的能力。雖然現在還有一些新的架構再出來,其實還是缺少在 scaling 層面上去驗證的一個能力,但我也不認爲 Transformer 就是最後的架構。整個 AGI 是否僅通過 scaling 就能解決其實還是一個問題。目前 Transformer 架構只是一個次優解,它可能優於鄰域的架構,但我覺得應該不是最終、最重要的一個 key。比如很難想象光靠這個架構就能把邏輯推理的能力編譯進去,我觀察目前的階段還屬於純概率建模,我覺得大模型邏輯推理的功能,還是得結合貝葉斯推斷等一些方法去實現。

《新程序員》:我聽業內人士討論說,不解決推理就無法通往 AGI。你對這個的見解是什麼樣的?

關超宇:中文的推理,在英語裡其實有兩個詞,一個是 Inference,一個是 Reasoning。Inference 就是我們現在在做的推理,是在解決計算效率的問題。Reasoning 的意思是邏輯推理,比如說我給大模型一道數學題,然後它可以基於數學邏輯來解答。Reasoning 是一個算法的問題,Inference 是一個工程問題。我覺得 Reasoning 是通往可控 AGI 的必經之路。如果模型沒有 Reasoning 的能力,其實是不可控的,是純靠上下文的概率去建模。

Scaling Law 讓部分模型在一些場景上具有推理能力,還是因爲它見得足夠多了,就大概知道如何去做。我覺得現在的 scaling 有點像我做英語完形填空的狀態,只要見得足夠多,就能靠語感來去做題。現在的大模型也有點像憑藉語感來去做題,然而現實的一些問題的解決,很多情況下不能靠語感。

所以除了 Scaling Law 之外,一定還有其他的方式可以讓推理能夠結合 Reasoning 的能力。我覺得這個是一個非常重要的研究方向。其實兩者也不矛盾,就是靠語感並且依靠推理,現在有很多 selfthink 或者 selfreact 的方式來去讓兩者互相結合。我覺得最終應該是兩個能力之間的結合——要麼底層模型模塊有推理能力,要麼就是上層有推理能力,應該是一個結合的狀態。

結語

“AI 教母”李飛飛曾說,找到自己的“北極星”是最重要的,這是一種內在的指引和自我驅動。關超宇正在憑藉自己的北極星指引,一步一步實現自己的“鋼鐵俠”之夢。縱然並不能完全成爲現實,但他深知自己努力的價值,與團隊一起,打破算力瓶頸,厚德載物,自強不息。

注:本文僅代表個人觀點。

有這樣一羣人,正在通往 AGI 之路的技術、應用上埋頭深耕,改寫着未來的軌跡。相比焦慮,他們或更爲興奮於挑戰無人之境、或是更爲務實穩步前行。天馬行空與腳踏實地之間,他們既是技術的探索者,也是夢想的實現者,推動着通用人工智能從科幻走向現實。在此背景下,CSDN、《新程序員》特別策劃了《》訪談欄目,旨在深入那些在 AI 領域不斷探索、勇於創新的思想領袖和技術先鋒們的心路歷程,分享一路摸爬滾打的實踐與趟坑經驗,撥開大模型的層層未知迷霧,一起共同譜寫 AGI 的未來。

歡迎有意參與《》的夥伴與我們聯繫,一起探索 AI 背後的無限可能,聆聽那些塑造未來的聲音,讓我們在“AGI 技術 50 人”的旅程中,感受技術的力量,一起奔赴這未知而令人心馳神往的 AGI 未來。