清華明星團隊打造的“中國版Sora”又拿錢了

近日,OpenAI的一紙“斷供”通知在國內再次掀起波瀾。

這則通知顯示,自7月9日起阻止來自非支持國家和地區的API流量。目前,OpenAI的API向161個國家和地區開放,由於中國未在其中,這意味着OpenAI將終止對中國提供API服務。

爲了在這次“斷供”中率先搶佔到市場份額,國內大模型廠商紛紛推出相關“搬家”活動,一時間喧囂四起。

無疑,OpenAI的這個動作再次證明了國產人工智能的重要性。正是如此,當天二級市場上相關概念股迅速拉昇,甚至多支出現了漲停。

與此同時,哈勃入股AI公司生數科技的消息開始浮出水面,在這種關鍵時間點,生數科技再次成爲了業內關注的焦點。

不止中國版Sora

這並不是生數科技第一次出圈。

今年4月,生數科技聯合清華大學發佈了中國首個長時長、高一致性、高動態性視頻大模型—Vidu,性能全面對標Sora,當時就在國內外引起了一陣轟動。

據悉,Vidu支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容,它不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。

Vidu發佈後,生數科技對外表示,Vidu的視頻時長會繼續突破,面向未來,Vidu靈活的模型架構也將能夠兼容更廣泛的多模態能力。同時,對於被稱爲“中國版Sora”,生數科技並不算滿意,因爲他們的野心遠比這更大。

而這種底氣則來自生數科技是全球首個提出Diffusion Transformer融合架構U-ViT,在這一架構下,生數科技完成了大模型在圖像、3D、視頻等多模態生成任務下的性能邊界的探索。

如果說這樣並能讓人直觀感受到生數科技的技術優勢,那麼其實Sora背後採用的融合架構Diffusion Transformer即DiT,與生數科技的路線幾乎相同。

一個插曲是,生數科技是在2002年9月就提出了該融合架構,比DiT早兩個多月,由於發佈時間更早,當年計算機視覺頂會CVPR 2023只收錄了U-ViT論文,並以“缺乏創新”爲由拒絕了由伯克利團隊發表的DiT論文。似乎在理論方面,生數科技在視頻大模型上的佈局是完全早於OpenAI的。

只不過,提出U-ViT架構的生數科技並沒有第一時間把資源都放在視頻上,而是先放在了圖像和3D上。

這是因爲生數科技認爲,真正的智能一定是通用多模態的,以人爲例,聲音、視覺、動作這些多模態信息同時輸入和輸出,人類才能夠將一個事物或者概念認識和表達得足夠準確。

2023年,生數科技表示,圖像生成效果已經超過了Stable Diffusion最新版基礎模型,並聲稱在年內趕超Midjourney。3D內容生成方面,也實現了文生3D和圖生3D的能力。

此外,在今年,生數科技纔開始在視頻上的集中發力,一方面基於上述兩個產品的成熟,其次也是有Sora的催化。回看生數科技在視頻上的頻頻動作,1月份,正式上線4秒短視頻生成,2月份Sora發佈之後,生數科技一個月後完成了8秒的視頻生成,4月份視頻長度再次翻倍來到16秒。

在具體打法上,生數科技目前採取模型層和應用層兩條路走路的模式。一方面,構建覆蓋文本、圖像、視頻、3D 模型等多模態能力的底層通用大模型,面向B端提供模型服務能力;另一方面,面向圖像生成、視頻生成等場景打造垂類應用,按照訂閱等形式收費,應用方向主要是遊戲製作、影視後期等內容創作場景。

圍繞這種模式,生數科技發佈了自主研發的多模態通用大模型UniDiffuser,同時推出了兩款應用產品視覺創意設計平臺 PixWeaver 和3D 資產創建工具 VoxCraft,以及視頻大模型Vidu。

又一支清華創業團隊

爲何生數科技能在如此短時間內,實現多模態領域的佈局?這還得從其創始團隊說起。

成立於2023年3月的生數科技,由人工智能方案提供商瑞萊智慧RealAI、螞蟻集團和BV百度風投共同孵化。

生數科技核心研究團隊主要來自清華大學人工智能研究院,其首席科學家朱軍,現任清華大學計算機系教授,同時也是清華人工智能研究院副院長、清華智能技術與系統國家重點實驗室主任、智源首席科學家。

生數科技CEO唐家渝,曾任騰訊優圖實驗室高級產品經理和瑞萊智慧RealAI副總裁,先後負責瑞萊智慧產品團隊、AI安全產研團隊及業務。CTO鮑凡則是清華大學計算機系的博士生,並作爲朱軍教授課題組的成員,共同推進研發工作。

此外,生數科技對多模態生成式模型的探索,最早可以追溯到2013年。彼時,早期成員在清華實驗室,開始了生成式模型理論基礎、高效學習和推理算法,以及音樂生成、人臉合成等多方面的研究工作。

生數科技目前已於ICML、NeurIPS、ICLR等人工智能頂會發表相關論文近30篇,其中提出的免訓練推理算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR傑出論文獎,並被OpenAI、蘋果、Stability.ai等國外前沿機構採用,應用於DALL·E 2、Stable Diffusion等明星項目中。

值得一提的是,這並非清華人工智能研究院首次孵化AI項目,上文提到的瑞萊智慧RealAI,也是由清華大學人工智能研究院創立,該公司由畢業於清華大學的田天博士擔任公司CEO,清華大學AI研究院首任院長張鈸與朱軍共同擔任公司首席科學家。

多家明星機構入股

清華明星創業團隊,正確的技術路線選擇以及快速的產品能力,讓生數科技自成立起就備受資本關注。

2023年6月,生數科技宣佈完成了近億元的天使輪融資。此輪融資由螞蟻集團領投,BV百度風投、卓源資本跟投,投後估值達1億美金。

生數科技的天使輪資方均是瑞萊智慧RealAI的老股東,對此,唐家渝此前在接受媒體採訪時透露,生數科技是在2023年2月開啓的天使輪融資,基本沒有到市場上融資,當時瑞萊智慧RealAI多家老股東就表示了足夠的興趣,所以整輪融資很快就敲定了。

不久後,生數科技又完成了由錦秋基金獨家投資數千萬元的天使+輪融資。

時間來到2024年,生數科技又完成了兩輪高節奏融資:

3月,生數科技完成了新一輪數億元融資,由啓明創投領投,達泰資本、鴻福厚德、智譜AI以及老股東BV百度風投和卓源亞洲繼續跟投。

6月,生數科技完成了數億元Pre-A輪融資,由北京市人工智能產業投資基金、百度聯合領投,中關村科學城公司等跟投,啓明創投、卓源亞洲等老股東繼續支持。

經過四輪融資,生數科技累計獲得了數億元人民幣的投資,這使得它成爲除了“大模型五虎”外,目前國內多模態大模型中估值最高的初創公司之一。

可以看到,在生數科技的四次融資中,百度、卓源資本、啓明創投參與了多輪,除了老股東,這些資方中還有北京人工智能產投基金這樣的國家隊,以及智譜AI這樣的創業企業。另外,生數科技成也是螞蟻集團投資的首個AIGC項目。

據悉,上文提到的哈勃入股生數科技也並非是新開的一輪,其也是生數科技Pre-A輪融資的資方,只不過在近期才完成了工商變更。

在大模型公司激戰的當下,算力能力成爲了關鍵賽點,不過生數科技暫時沒有算力憂慮,此前其曾表示,未來算力問題不會持續太久,產品構成也決定了生數科技並不需要像語言模型,使用上千甚至上萬張卡,另外股東也給了相當的算力和資源支持。當然,我認爲除了財務和技術外,有了百度、哈勃、啓明、螞蟻等資方的加持,讓生數科技一直保持在臺前,這在當下的大模型浪潮中,可能是最重要的。