專家傳真-羣雄競逐個人化生成式AI的未來

生成式AI的重點在於生成,能自己產生文字聲音和圖片,甚至於影片。如果能將重點放在模型的縮小化與節能化,善用現有人手一機的環境,將可以建立以個人手機爲中心的個人化生成式AI環境。圖/摘自Freepik

報載美國OpenAI執行長奧特曼,積極地與全世界的大金主會談,希望大家能出資建立一個超大型的高階晶片生產基地,以支援人工智慧(AI)晶片的發展。預計投資規模將達數兆美元。

同時也有新聞指出,輝達(NVIDIA)已經建立一個新的部門,開始爲其他公司設計客製化晶片,以防止日後這些品牌公司自制晶片取代原來輝達的產品。這些品牌公司這麼做,是爲了要減少開發時程,同時滿足自身的特定需求,並節省耗能。

■通用人工智慧將消耗大量算能

OpenAI走的路線是通用人工智慧(AGI),希望讓AI擁有和人一樣的思考能力,有辦法處理視覺,聲音和文字與認知。它所採用的方法不是發明新的運算法,而是放大運算規模,包括模型與訓練語料的規模。每一個世代,都用數百到數千倍的規模成長。所以才需要有數百數千倍的AI運算能力來支援。因爲他們發現,當規模放大到一定程度的時候,AI的認知能力就會出現頓悟的效果。這方法是一個比較偷懶而奢侈的做法,它要用盡現有世間可用資源,以達成目標。目前已經快要達到極限,所以纔會再想辦法要大家蓋更多的IC工廠,以滿足需求。

反過來說,如果有人花點錢投資在科學家身上,去發明一個只要用1%大小的規模,就可以達到差不多性能的模型,那不是馬上就可減少100倍的AI運算能力的需求嗎?但這種投資不知道什麼時候纔會有結果。比起花錢就確定蓋得成的IC工廠,資本家往往選擇成果比較能確定的後者。

■運算由機房移向手機

前一陣子,比起OpenAI的ChatGPT相對弱勢的Google,也將Google Bard改名爲Gemini。Google的Gemini,加強使用中文語料訓練,以克服過去完全用英文語料訓練,再靠翻譯操作所產生的問題。Google推出了Gemini在Android上執行的App,可以識別文字,聲音,圖像,同時也可以辨認動作。明白地顯示,Google的Gemini將要變成和人們隨時溝通交談的超級AI助理,讓手機在AI的推論在第一線上扮演更重要的角色。

現在手機的運算能力愈來愈強,許多AI的任務都開始移到手機上執行。手機上常做的影像識別任務,有街景識別,人臉辨識等。手機IC開發公司也常舉辦AI競賽,希望能用比較小的模型,達到差不多的效果。如同過去有人利用病毒盜用許多手機上的繪圖晶片拿來挖礦一樣,將衆多手機連結在一起,往往就有如同機房一樣的運算能力。這也是過去常在討論的聯邦式學習方式,希望讓手機一起合作來訓練一個大模型,同時把個人隱私留在自己手機上的小模型中。

用手機就把影像跟聲音處理完畢,還有一個好處,就是節省傳輸頻寬。不再需要費時費力地將整個影片傳上去處理,只要把重要的資訊抽取後再傳出去就可以了,這樣大家都輕鬆方便得多。

■個人化生成式AI的未來

以前要做個人化系統,像個人化新聞,個人化小說,是從你喜歡的類別中挑出現有作品給你。生成式AI(GAI)的重點在於生成,AI能自己產生文字聲音和圖片,甚至於影片。如果能將重點放在模型的縮小化與節能化,善用現有人手一機的環境,我們將可以建立以個人手機爲中心的個人化生成式AI環境。

以後有了個人化生成式AI,將爲你量身創作新的新聞,新的小說。你的喜好,你的理想,你對未來的憧憬,都將由你的手機來創作。因爲它熟悉你的聲音,說話的方式和口氣,你做的動作,要建立個人化的作品,將與個人特性貼近許多。不但方便,同時也把你個人的隱私和秘密鎖在手機中,只供你一人使用。