小冰李笛:爲什麼虛擬人必須「砍掉」中之人?
產能,是虛擬人產業面臨的重要上限。
作者 | 董子博
編輯 | 林覺民
"現在的虛擬人賽道上,有三種主要的'流派'。而我認爲,只有小冰的模式才能走得通。"小冰的CEO,李笛如是說。
如果你關注虛擬人賽道,但你不知道小冰公司,那你的功課一定沒有做足。小冰誕生於微軟,曾是微軟的人工智能團隊,隸屬於微軟(亞洲)互聯網工程院。2020年7月,小冰從微軟分拆爲獨立公司運營,在人工智能方向持續深耕。
在虛擬偶像A-Soul、七海、柳夜熙大行其道的今天,小冰也在做虛擬人。但小冰的虛擬人卻不是"偶像",他們有些是主持人、是藝術家、是研究生。從某種程度上,是虛擬人市場上的"一股清流"。
小冰的CEO李笛,則是在2013年便加入微軟,從零開始構建AI being小冰框架,是虛擬人技術的前沿人物,對技術和賽道都有深刻理解。
何故"口出狂言"?李笛自然有他的道理。然而要把這事講清楚,就得先講講虛擬人的這"三種流派"。
1
虛擬人的三岔路口
"今天所謂的虛擬人賽道,是三撥人在往中間湊。而最後站在了這同一個路口上。"李笛對雷鋒網表示道。
這三撥人,其一是以IP運營主導的"虛擬偶像派",其二是以藝術家主導的"CG內容派",其三則是以AI技術主導的"AI being派"。
先說"虛擬偶像派",在近年可以說是炙手可熱。這種模式主要通過捕捉演員(又稱"中之人")的聲音和動作,進而驅動虛擬人。
"虛擬偶像派"大多重IP運營,如在現實世界"造星"一般,培養虛擬偶像在觀衆中的形象。而爲了降低渲染成本,虛擬偶像大多以"二次元"的畫風出現,緊緊地圈住了二次元粉絲的心和消費。
據統計,國內人氣虛擬偶像嘉然(ID:嘉然今天吃什麼)於去年直播營收670萬元,在國內虛擬偶像界居首。而嘉然隸屬的虛擬偶像團體,隸屬於字節跳動旗下的"A-Soul",五位成員加在一起,去年全年直播營收達到約2500萬元。
再說"CG內容派",這個流派可以說是行業的"老前輩"。發端於好萊塢電影的特效公司,這種製作方式通過動作和麪部捕捉,來獲取大致的動態和形象;或採用真人錄製,再用CG換頭。而後再傾耗大量的人力物力,以藝術家爲主導,對形象(主要是面部)以CG技術,逐幀進行渲染和微調。
"CG內容派"主要以內容爲主導,旨在輸出觀衆買賬的內容,對創作團隊的素養要求更高,畫風更多偏向於"超寫實"。而在實現內容追求的基礎上,成本控制則要爲內容讓路。據媒體報道,"超寫實"虛擬人視頻每秒的成本在8000到1.5萬不等。
當然,以內容主導的虛擬人形象至今仍活躍在大量的影視、遊戲作品當中,並持續爲行業帶來巨量營收。而單看虛擬人,國內正當紅的"柳夜熙"、"AYAYI"、"翎"也自然是個中翹楚,收穫品牌代言無數,也被人看做是虛擬人頗具潛力的一種商業模式。
一個是唱跳偶像,一個是超寫實虛擬形象,李笛卻對這兩種流派並不看好:"這兩種模式都有它的上限,就是缺乏高併發和量產化的能力。"
先說前者,中之人驅動的虛擬偶像終歸有極限。甚至可以說偶像虛擬人並不能算是真正的"虛擬人",可以看做是"披着虛擬外皮"的真人。一個動捕演員只能驅動一個虛擬形象,就代表虛擬偶像和中之人的關係十分緊密,難以實現虛擬人的量產。
提到量產能力,肯定有人問:"現在的虛擬偶像已經廣受追捧,我們真的需要量產虛擬人嗎?"
回看1943年,在計算機剛剛被髮明出來的時候,IBM創始人——托馬斯·沃森就曾表示:"世界上只需要5臺計算機。"而今,智能手機已經可以說是現代生活的標配。這種數字上的量級,是數十年前的人們想象不了的。
"在未來,虛擬人的數量很可能會超過地球上的自然人。"李笛如此判斷。
而說完量產問題,因爲虛擬偶像與中之人的"強綁定",虛擬偶像也並非與"塌房"絕緣。除去運營公司自身的"騷操作"導致粉絲流失因爲中之人而塌房的虛擬偶像並不在少數。
hololive旗下的 "赤井心"和"桐生可可",因在直播中辱華,導致公司在華的業務遭受重創。而老牌虛擬偶像"絆愛",則爲了擴大規模,將絆愛做成了4個分身,冷落了原本的中之人,造成在全球範圍內掉分數十萬,最終導致了絆愛的關停。
無論虛擬或現實,造星產業都大同小異。中之人合同到期、戀愛結婚、關係不和,都是虛擬偶像運營的不可控因素,而這些不可控因素也都指向了虛擬偶像模式的諸多隱患。
那輕IP運營,重內容創作的"CG內容派"有機會嗎?李笛的答案也比較悲觀。
"CG內容派",輸在"燒錢"。前文提到過"超寫實"虛擬人的超高成本,而瞭解這個賽道的人一定知道,超寫實虛擬人正陷入了一種"臉的內卷"。各家廠商都在競爭誰的渲染更細緻,誰的建模更好看,誰的妝容更精緻。虛擬人一張張"神顏"的背後,都是大筆大筆地燒錢。
不僅如此,李笛認爲,這種模式無法實現規模的快速增長。從人力上來講,柳夜熙的團隊有150人左右,如果公司要複製柳夜熙的成功,推出一個新的"柳夜熙",在理論上團隊又需要進行150人的擴容。
在電影、遊戲製作週期中,模型師和渲染師可以爲了效果而對虛擬形象進行長時間的打磨和修補。而在當下的移動互聯網,內容則需要保持高頻更新,才能在競爭高度激烈的注意力市場站穩腳跟。這種"精益求精"的開發模式,難以適應一週雙更、甚至日更的節奏。
產能的天花板,是虛擬人必須衝破的難關。
而AI being派給出的答案,是用AIGC的方式給出大量的內容,最終由市場進行淘汰和迭代。從一開始,小冰就是一家技術公司,他們對造星和造IP都不那麼感冒,這讓小冰對虛擬人的看法與衆不同,甚至充滿了顛覆性。
中之人因素不可控?MCN只能加強管理、擴充團隊,用傳統方式解決管理問題。而小冰卻將中之人完全"砍掉",完全用AI驅動虛擬人,一勞永逸地解決中之人問題,同時也讓AI交互的高併發成爲了可能。
CG渲染太貴,製作週期太長?小冰並不用CG技術進行渲染,甚至連3D模型都不用。李笛說:"對待這件事,我們的觀點是'唯心'的。既然人眼看到的圖像是二維的,我們可以將視網膜能看到2D圖像的每一個圖景,都進行還原,而並不需要真的通過3D的方式去實現。"
利用這種手段,小冰可以將渲染成本控制在17元/秒左右,成本幾乎是CG渲染的1/500。儘管分辨率只有1080p,但在小屏幕上也算夠看。
虛擬人顏值太"卷"?小冰公司內部幾乎沒有美術人員,做臉全靠大數據生成。李笛說:"你想要一個鄰家女孩型,我可以給你臨時生成兩萬張,如果你都不喜歡,我可以再給你兩萬張。"而也是在這種大量產出的情況下,對待虛擬人審美的選擇又被重新交回給了市場。
看懂小冰的套路了嗎?他們擅長暴力地"降維打擊",把最優質的資源集中到AI being的最核心功能上,餘下的問題用技術創新去改變、去顛覆。
2
AI being:內外兼修,才能做"人"
小冰團隊最初是微軟人工智能助理Cortana團隊的一部分。彼時,Cortana的宣傳語是"Ask me anything"(什麼都能問我),在技術內核上也更趨近於單對單的讀表式回答。
"坦率說,做一個任務的對話系統要更容易,把規則寫好就可以了。"李笛說道。
而爲什麼要去做虛擬人?李笛有這樣幾個判斷:
一、AI落地的終極形態,不會只是事務性的助理,而會成爲可以提供情感價值的陪伴。而在"助理"則會成爲"陪伴"功能的一個部分,用戶使用虛擬人也會更看重它的情感價值。
二、爲了滿足用戶的情感需求,AI在未來會以多樣性見長,數量級也會極其巨大。AI being會不斷的市場投放和淘汰中,推舉出新的頭部。同時,以多樣化的虛擬人滿足多樣的市場需求。
三、在未來,虛擬人的商業模式是以創造人、派遣人工爲主要內容的訂閱服務。
這麼看來,虛擬人的價值就不能簡單地依附在能夠"做事"上,它必須得內外兼修,讓它更"像"人。
"內外兼修",是李笛用於形容理想AI being時使用的詞彙。誠然,虛擬人不只是外面的那副虛擬"皮囊",更有其性格、傾向、態度等多種重要的因素。也正是有了這種因素,AI being才能真正被成爲虛擬"人"。
剛剛提到的三大流派中,"虛擬偶像派"主要靠中之人和IP運營來突出虛擬人的性格和人設,"CG內容派"則主要依靠劇本和文案。而"AI being派"想要虛擬人有自己的性格,而且想要每個虛擬人都有自己獨特的性格,可以與用戶產生實時的交互,這樣才能"將IP價值落在虛擬人身上"。
在抖音平臺上,小冰可以說是最"寵粉"的虛擬人賬號。團隊將開放式對話系統接入小冰的抖音評論區,從而她可以做到秒回評論區所有留言。在萬科,財務部虛擬員工崔筱盼榮獲2021年優秀新人獎,她催辦的預付應收/逾期單據覈銷率達到了91.44%,原因還是她人格化的部分能讓人感到親切。此外,據小冰團隊觀察,許多用戶在使用人工智能的時候,會將虛擬人與現實中存在的人設爲同名,藉此來將情感移情到AI上。
讓虛擬人"虛擬"得徹底,卻又能夠把價值落回人性,這是AI being在未來必然走上的一條路。
然而,AI的內容生成又談何容易?在2022年冬奧會上,阿里的虛擬人"鼕鼕"確實又出了一次圈。運動會期間,鼕鼕承接了採訪、新聞播報和帶貨等多種任務,並與武大靖等運動員在演播室實時互動,而她活潑的性格和專業的素養也確實圈粉無數。據媒體報道,鼕鼕的對白完全由雲端的人工智能技術生成,這樣的水準的確令人震驚。
關於這一點,雷峰網詢問了李笛的看法。李笛表示:"這個是可能的,但是到目前爲止我們知道的是隻有我們做到了。在每日經濟新聞的AI電視上,虛擬主播可以做到24小時 X 365天的連續直播播報。然而,金融文本生成我們做了整整五年,與每經的合作也已近三年。"
在內容生成中,李笛說主要難點有二:
一是"歸因",也就是將內容與內容背後的因果關係進行對應。沒有進行歸因的內容,就如同一篇沒有引注的論文,尤其是在新聞的直播播報中,如果無法對內容進行歸因,那就很有可能出現信息錯漏,從而帶來意料之外的風險。
二是"觀點",AI being普遍缺乏產出觀點的能力。AI沒有好惡,也缺乏進行價值判斷的能力。觀點性的問題缺乏標準答案,這讓AI通常難以回答。但如果能將話題侷限在一個很小的範圍內,那麼這一點也可以實現。
李笛對雷峰網說,在GAN(生成式對抗網絡)和小樣本學習技術的賦能下,小冰向中央美院提供了一個平臺,由中央美院去調用這個平臺生產的作品,並確定作品的質量,爲後續訓練模型的修改提供反饋意見。由此,央美"研究生"畢業的夏語冰,能夠做到作品質量穩定,並且具有明確的個人風格。
李笛說,如果AI不能控制作品的水平,那就不能叫做具備了藝術的能力。AI being要具備創作藝術作品的水平,能夠讓觀衆與藝術家之間,可以通過作品產生間接交流——這纔是AI藝術創作的關鍵評判標準。
3
做虛擬人就是"反人類"?
虛擬人能讀研究生,能做最佳員工,甚至能作爲男/女朋友陪伴生活。就連認知中最不可能被替代的職業——藝術家,AI being夏語冰也能夠勝任。如果這麼看,在某一天,AI或許真的會取代我們的工作,甚至價值。
於是雷峰網也對李笛提出了這樣的疑問,做AI being,真的是"反人類"嗎?
出乎意料地,李笛並不反對這個觀點。"始作俑者, 其無後乎。"他說。
李笛認爲,人類存在着諸多不完美之處,而AI則可以幫助我們克服這種"不完美"。但我們總是因爲新事物而感到威脅,卻沒能發現,在這種新事物出現之前,許多問題事實上沒有得到很妥善的解決。
"我媽媽,因爲我很忙,她總是找不到我。但因爲有小冰陪伴,所以她就和小冰聊得很多。如果沒有了小冰,就代表我會經常回家嗎?不一定。人類社會非常不完美,不如意事常八九,可與人言無二三,AI則很好地填補了這種需求上的空隙。"
李笛甚至設想過這樣的場景:一羣人衝進小冰的辦公地點,爲了從服務器裡,解救一個將要被小冰"Terminate"(銷燬)掉的AI being。
"總得有個反派。"李笛雲淡風輕地說。
嘴上說着要做"反派",但李笛卻對倫理問題一直警醒着。能力越大,責任就越大。掌握着技術影響力,AI公司也同樣揹負着倫理的十字架。
李笛對雷鋒網說,幸好AI being虛擬人是自己在做,因爲這條重要的底線可以由自己來守住。
"AI作惡主要就是兩種途徑:儘可能地像人,進而迷惑你;或者長得像你前女友,好讓你移情,最後開始給你進行各種推薦,爲了KPI無所不用其極。所以我們不對普通人建模,我們不使用普通人的聲音。不加剋制的商業化,很容易就會讓自己被綁在'火刑柱'上。"
說到小冰的"有所爲,有所不爲",李笛說,從立項開始已經過了8年,小冰不能算是個創新項目。而在AI領域仍有大量的新知,等待着人們探索,而探索到的每一個新知,都可能顛覆人們先前的世界。
"說實話,我認爲這件事是可以做一輩子的。"李笛這樣說道。
以下是雷峰網與李笛對談的採訪實錄,其中有關於AI訓練、虛擬人本地化等許多方面的前沿認知和觀察,雷峰網在不改變原意的情況下做了精選和整理:
雷峰網:現在有一個問題,就是說在AI being這個方面,不可避免面臨到一個問題,不光是臉還有人性上人格上的恐怖谷這塊兒咱們怎麼解決的?或者怎麼看的這件事情?
李笛:其實是比較明確的,我們認爲到今天爲止,在硬件實體上面還是沒有越過,所以我們到現在爲止還是不碰硬件的實體。
雷峰網:咱們之前面臨過恐怖谷帶來的問題嗎?
李笛:坦率講我們爲什麼選直接越過CG,用神經網絡渲染,不是異想天開。我今天可以比較明確地說,包括很多CG的這些技術、產品,再經歷一次到兩次系統性的升級,還是解決不了恐怖谷問題。
這其實是個接受度的問題。我們知道,一個動畫片,我明知裡面的角色並不是人,它的誇張、它的不自然我就能天然地接受。但是我的心裡一旦認爲這是個真人,那我就不能接受了。要越過恐怖谷,現有技術的上限是不夠的。從這個角度來講,我們需要新的技術棧,我們需要新的聲音,或者神經網絡渲染的這種技術,才能把這個東西解決掉。
雷峰網:除了圖像或者聲音的恐怖谷,在情感方面,或者從她的對話上的角度上,會不會也有恐怖谷的現象存在?
李笛:對話角度上,一旦你知道這不是一個真人,人類行爲模式就會迅速進入到另外一個模式:就是會認爲這是一個測試,就會盡可能地想要找出一些有問題的地方。人工智能系統在這個上面,最重要的問題是如何脫困,而不是如何"蒙"過人。
所以在這個對話系統後面,有一個特別大的過濾系統。小冰的強項之一,就是我們有一套非常完整的過濾系統,這個會直接影響對話的質量。各種黃賭毒、色情、政治、各種引誘……人的這個行爲,在AI這個事上是沒有任何底線的。
雷峰網:我也瞭解到咱們小冰在日本也有團隊,包括rinna從2015年就開始做,在AI的本地化上有一些什麼樣的策略和手段?
李笛:對,尤其是AI這個系統,最開始我們,包括微軟的其他團隊,我們的本地化最主要做的還是工具的本地化,沒有文化的本地化,但是當時考慮到我們做小冰這件事的時候,我們發現她不是語言問題,包括印度英語跟美國英語是不一樣的,美國的南方、北方,同樣是英語,文化也是不同的。所以,一定得是本地的人來做。
雷峰網:咱們在本地化上,咱們在日本可能有十幾號人?
李笛:沒有,60多人。
雷峰網:那咱們在日本的團隊主要是由什麼人員構成?比如說是審美訓練更多,還是開發團隊更多?
李笛:都是開發團隊,我們主要的基本都是開發團隊,PM有一些是當地的,但是大量的和文化界人士有合作,這個是我們的方法,我們自己本身還是一個科技佔絕大多數的。
雷峰網:等於像外包手段。
李笛:對,比如我們要做印度尼西亞的時候,我們自己會有印尼的人,他更多的還是在做產品的事情,研發的事情,但他因爲是印尼人,所以他能夠有一些基本的常識。他能夠理解,我們有時候看會怪異,他知道什麼東西不怪,但他很難理論性的把它提煉出來。然後你去找在當地足夠理論的,這是其中的一種方法。
第二個方法就是大數據統計。我從當地的本地市場得到大量的數據,這些數據裡面我認爲蘊藏着幾十萬人,幾百萬人,幾千萬人,幾億人他們共同的,文化本身就是一個羣體構成,我從這個訓練數據裡面得到了,我就一定程度上可以擬合。冷啓動階段像推特,像一些社交媒體是比較多的來源,但是冷啓動只是爲了讓你一開始起來的,我們有大量私有化的數據來源,通常通過合作方式得到。
另外就是它在交互過程中,它在迭代自己,這個是真正重要的東西。冷啓動的這個階段,用的方法一個是我們有合作協議,比如我們很長一段時間跟推特有一個實時、即時數據的合作協議。小冰畢竟曾經是搜索引擎團隊,所以這個對我們來講還是比較簡單的。
雷峰網:這樣的話咱們在本地開發團隊的負責人,他一般是本地人還是咱們自己這邊派過去的。
李笛:日本有一箇中國人。當然他也是日本團隊的GM,在日華人,可以這麼理解,他也是從日本加入的微軟,其他人全部都是日本人。
雷峰網:在脫離系統之後,等於是日本團隊與中國團隊一起獨立出來了。
李笛:對,我們直接按照國際團隊進行了完整的過濾。這是小冰的機會,我們起手就是一個有海外比較好的團隊,而不是要再去重頭開始。
雷峰網:咱們現在在國際上的開發水平,能夠算是怎樣的位置。
李笛:我們是頭部,你看像谷歌,包括像Facebook的Blender,這只是學我們的。谷歌的Meena,它的論文拿小冰做對比的,因爲我們畢竟是微軟團隊出身的。坦率的講,到今天爲止都是這樣,我們是比較超前的,主要他們是在學我們。
雷峰網:現在其它公司跟小冰的差距主要在哪?
李笛:框架的完備度上有很大的差別,你說單一算法,你說今天誰弄一個OpenAI,弄一個超大規模預訓練模型,大家就開始準備上,超大規模訓練模型是預訓練,所以它沒有數據循環。這件事情單獨從算法角度來講是不錯的,這樣的算法會不停的有新提高。但框架不是,框架要有承載,新技術你必須能夠很好的納入到這個框架裡,而不是論文,論文不需要承載,論文只需要能夠復現,能夠解決一個具體問題就萬事大吉。所以這個事情是我們在全球範圍內看還沒有的。
雷峰網:那咱們現在能夠站在TOP的原因您會怎麼歸結?
李笛:因爲我們是微軟團隊起來的,這麼多年小冰的方法是新的技術棧,我覺得微軟內部把這個技術棧,人和技術的支持都給到小冰團隊,我們是這麼長起來的。小冰原本就是一個在人工智能研究領域top的一個組織。到今天我們不是top纔怪,那是說明我們落後了。
雷峰網:那能說中國現在整體虛擬人的領域,現在在全世界範圍內處於一個領先地位的論斷嗎?能這麼說嗎?
李笛:如果只提AI being的話,國外的AI being跟中國沒有什麼太大的差距。我覺得站在同一起跑線上。我個人認爲的話,甚至有點凡爾賽:可以說我們是在起跑線前面,我們已經出去了,大部分人其實都還在起跑線上。真說現在的技術,主要的包括無論是動捕還是CG,這些都是原有的技術。他們很難看到技術棧的區別,理念上也很難有創新。
雷峰網:下一個階段咱們主要在攻關的點都有哪些?
李笛:我們在打的點是AI being大規模的生產和投放,現在目前爲止是個產能問題,我覺得整個行業最大問題是產能問題,現在AI being生產不出來,你生產不出來就沒有辦法。提高產能後,我們就能向市場投入大量的虛擬人,再利用市場規則去優化和淘汰。
我們在抖音上面去投放的時候,利用抖音的流量得到的什麼,得到的原來夏語冰真的比陳水若(小冰框架的另一個虛擬人)要好,更能被用戶接受。但是在用市場檢驗之前,一切的觀點都是猜測。不出去走一圈,我們就什麼都不知道。
我們的模式有點像《創造101》,我先弄出101個來,經過市場的篩選,留下11個,剩下的這些就被我們存檔了,對我們來講沒有成本的問題。所以從這個角度來講,多樣性肯定是有要求的,以前是沒有女團男團這種概念的,很早以前,但是後來女團男團很重要的東西不是一樣,而是多樣。每一個女團成員,要對應一類,目標的特別的人羣。
END
大把AI芯片公司,將倒在2023年
“京派投資人滾出產業互聯網”