在商業和藝術交匯處聊AI音樂

兩年前,ChatGPT橫空出世,顛覆世界認知。今年年初,文生視頻大模型Sora發佈,全網刷屏。前不久,生成式AI音樂軟件Suno V3誕生,音樂創作迎來了“ChatGPT時刻”。

人工智能在以更快的速度闖進人類的世界,當AI的風吹向音樂圈,帶走了什麼?又留下了什麼?

作爲投資人,同時也是音樂人,今天,來聊聊AI與音樂。

作爲投資人, 常被問到“AI音樂的商業模式怎麼樣?” 我的答案是,有效但也有限

AI音樂不是一個新鮮的詞,除了現在說的生成式,其實還有一些輔助創作工具,例如人聲分離等。如果迴歸到生成音樂本身,這個歷史也很久了。我上學的時候老師講現代音樂,就提到上世紀50年代美國教授用數學的形式隨機生成音樂,甚至還有貓踩鋼琴生成音樂,這是一個概率問題,所有生成技術的底層邏輯都是概率。

前幾年國內有一個生成音樂的商業模式。公司像是一個大廠房,格子間裡的工作人員,每人一臺電腦,一個小的電琴,每人每天要創作幾首新歌上傳平臺,歌曲就像流水線上的商品按照固定的模式生產出來了。人工加水電,每首歌的生產成本幾百上千。緊接着的投放也有一套流程,例如一千首歌上傳到短視頻平臺,每個投10元,挑出表現好的繼續再投100,再挑再投,直到某一首歌被聽到和傳播了,獲得收益。流量倒入到音樂流媒體平臺,平臺跟工廠結版稅。他們不需要去辨別一首歌質量的高低,只要其中的某句歌詞、某個旋律觸動聽衆,得到傳播,不斷地循環,商業模式就是有效的。在這個模式下,大量的電子垃圾被生產出來,堆砌到互聯網上。AI音樂讓這類公司的成本進一步降低了,每首歌從幾百塊可以降到幾塊錢,財務模型確實會帶來大幅優化。

當然,青山沒有投這樣的公司。第一,我們追求更高的天花板。從投資視角,我們希望一家企業有機會做的很大,而不僅僅是賺點錢;第二,我們要考慮商業或投資的社會意義。投資這麼多年,結果上我們不能說沒有瑕疵,但在動機和出發點上,我們一直很在乎社會意義,也一定有除了賺錢以外的考量。

有些人可能會問,上面的商業模式裡,AI降低了歌曲的生產成本,但是收入項會增加嗎?也就是說AI模仿和學習能力這麼強,會更容易產生爆火的神曲嗎?這個要從“歌”和“火”兩件事看。我認爲AI生成一些中國流行樂壇上的火歌是非常容易的事情,每天生成100萬、1000萬,一定是有一些滿足火的條件的,甚至現在就有,這還是概率問題。但是,火這個事很難做到,因爲不會被聽見。很多人擔心AI會產生大量的歌,其實這個事已經持續很多年了。在流媒體平臺上,比如QQ音樂、本站雲音樂、spotify,每天都有十萬以上的新歌被上傳。真正被人聽到的有幾首?可能1000首都不到,99%都被淹沒了。如果這個數字變成100萬,變成一億又怎麼樣,也不會被人聽到,不會因爲供給增多而拉高需求。

當然,還有另外一種to B的音樂,諸如罐頭音樂等,他們的存在不是爲了吸引你的注意力,更多的是提供一種情緒氛圍。有大量的低成本的視覺內容,以及線下游樂園、商場和餐廳等有類似的需求,這類型的音樂有非常穩定的交易市場和商業業態,它們也不需要精良的製作,我認爲AI對這類型音樂的影響是非常直接和迅速的。

AI音樂目前來看受益最大的還是平臺,很簡單的道理,平臺如果不需要每年支付大額的版權費給上游創作者,何樂而不爲呢?平臺的邏輯簡單說是計算下游聽衆的收聽總時長,對應上游版權支付的成本。如果一部分被平臺自產的AI音樂替換,就相當於上游支付版權的成本降低了一大塊。當然,創作者是一定會反對有人用他們的音樂訓練大模型來取代他們,前提是得確切地知道。所以,在整個AI領域,推動訓練數據的公開透明化,去溯源和監管訓練數據是必須要做的事。平臺也需要在這個裡面扮演個歷史正面的角色。

上面提到了一些有效的商業模式,但我認爲總體來看生成式AI在音樂領域的發展依然是有限的。

人工智能本質上就是輸入、計算和輸出三個環節。計算環節會隨着時間發展不斷進步,進步的邊界人類不一定能夠特別清楚的掌握,但但凡是文生,輸入環節就始終會受到人類語言的制約。人類大腦皮層70%都是由視覺處理的功能覆蓋的,語言誕生的時候就是通過視覺的同構來建立了人類的交流系統。相比視覺,人類語言和聽覺的同構性是很差的。而創作音樂是嘗試對沒有邊界和沒有格式的聲學環境做一個描述,人類語言很難精準表達。這就導致在輸入環節的效率非常低,無論是創作時還是修改時,人類的語言描述都很難將內心想要的東西正確傳達給計算機。只要是文生,這個顆粒度就無法降得很小。

所以,在計算環節同樣進步的情況下,文生圖片、文生視頻等文生視覺的進步速度會遠遠高於文生音樂,甚至文生音樂的天花板是極其明顯的,因爲文對音樂的描述能力太過粗糙。

作爲音樂人, 常被問到“AI真的可以進行藝術創作嗎?” 我的答案是,除非有一天AI產生企圖和情感 不同音樂創作的流程是完全不同的。

我最早開始寫歌是在90年代,那時候組過搖滾樂隊。樂隊寫歌其實不是一個非常嚴謹的創作過程,更像是大家一起玩出一首歌來,情緒和靈感的碰撞,每個人貢獻其中一部分。

後來我學習古典音樂,音樂創作是相對嚴謹的。古典音樂的創作通常是由一個人來完成,創作過程是作曲家自己以記錄、寫譜等視覺呈現出來,樂團的演奏是與其明確對應的,一個週期下來要半年、一年甚至更長。

現在做電子樂,電子音樂的創作又是另外一套流程。電子樂的創作可以是一個人,也可以是幾個人,但基本可以完全用軟件來創作,當然也可以用硬件來做輔助。整個音樂所具備的要素,無論是旋律、音色、節奏和各種樂器,都被拆解成了一個個可輸入和可編輯的最小單元。

進入到電子音樂時代,當音樂被拆解成一個個數字單元,智能音樂、生成音樂就具備了基礎。在計算編排方面的能力到了一定程度後,音樂創作自然就會被順勢覆蓋。

但是AI創作的音樂可以被稱作藝術嗎?不止是音樂,AI生成的畫作、文學、設計等等,這些能被稱作是藝術嗎?又該怎樣定義藝術呢?

首先,藝術是人類特有的內容形式,其次,一切藝術都該有兩個層面,技巧層和內核層。在這兩個層面裡,內核層是必要條件,技巧層是充分條件。

把音排列組合成旋律和和聲,編排上樂器,模擬出人的嗓音,這些是技巧層。

把線條、色彩排列組合成人類喜歡的樣子,這是技巧層。

把古文的詞彙按規律組合成七言五言,這是技巧層。

內核層是什麼?是人類的企圖與情感。任何一個藝術作品,都能找到這兩種元素。而AI目前,沒有企圖與情感。

怎樣看待AI可能帶來的大量“電子垃圾”?

創作者、分發者和受衆,到底誰應該爲電子垃圾負責,這是一個爭論不休的話題。

首先,我認爲受衆是沒有錯的。雖然很多人批判觀衆審美差,所以內容差,但我認爲這種說法是站不住腳的。回頭看人類歷史發展的各個階段,絕大部分的人都不知道自己要什麼。藝術造詣或深或淺的時代、地區,受衆都是一樣的結構。

其次,我認爲分發環節只能遵從客觀。從經銷商的門店到流媒體,分發渠道發生了劇烈的變化。很多人將過錯歸於分發環節,批判分發公司不負責任,什麼都推。這種質疑也是站不住腳的。試想如果分發公司設置了價值標準,那是不是更加錯誤?我們不應該要求分發環節去判斷,而應該要求它客觀公正。按受衆結構匹配分發不是過錯。

我認爲,問題產生的源頭在創作環節,這是一個非常主觀的並且有明確標準的環節。對於創作者,你要盡你所能,創作精益求精的作品,無關乎硬件和環境,你都要去精雕細琢,不斷嘗試,這也就是所謂的匠人精神。如果是這樣的創作生態,再加上客觀公平的分配機制,我相信結果會不一樣。

歸根到底,工具是爲人所用的。職業音樂人是把AI用於收集素材和靈感,還是會把AI簡單生成的歌作爲自己的歌發行,這是自己的選擇。

最後,聊聊AI音樂的未來。

一百多年前拍照是一個很專業的事情,門檻很高。甚至五十年前,拍照依然要學會使用專業的相機,調整光圈等。後來出現了傻瓜相機,再後來智能手機實現了拍照平權,拍照融入了日常生活,每個人都可以隨時隨地拍照上傳社交媒體。這個世界每天產生幾十億甚至上百億的圖片,但結構是非常典型的冪次結構。極少數的明星和網紅花了很多時間和心思拍攝的精修圖能夠被很多人看到,絕大多數的普通人隨手一拍發在社交媒體上的被幾個幾十個熟人看到。

未來的AI內容仍然遵循這一結構。

未來可能每個人都可以用AI生成音樂表達自己的心情,通過終端分享到平臺,但是結構不會改變,依然是那些花費更多時間和擁有更多額外條件的人,他們的音樂會被更多人聽到,絕大多數人的音樂還是隻會在小範圍傳播,但也挺好,AI給了我們更多選擇。

無論是投資人還是音樂人的生活,AI都在帶來翻天覆地的變化。人總還是懷舊的,看着一代人有一代人的音樂,感謝音樂代替我們表達一代又一代人的叛逆。

從純自然聲響到電聲進入音樂領域,再到麥克風讓耳語能被聽到,又來到數字時代的電子音樂,音樂範式的變革推動音樂核心內容的變化,窮盡一個範式會助推下一個範式的到來,電子音樂時代的AI正扮演着加速器的角色。

至於下一個範式是什麼?什麼時候到來?

我們無從知曉。

風起時,我們只能聽着吹動的響,看揚起的沙,

期待加速到來的明天。