AI教母李飛飛最新演講:最令我感到對未來興奮的是,世界將有一場大爆發

“AI教母”李飛飛揭秘創業方向:

有了空間智能,AI將能夠理解現實世界

丨劃重點

① 李飛飛稱,空間智能將使機器高效處理視覺數據,精準做出預測,並基於這些預測採取行動。

② 李飛飛透露,他的團隊曾開發名爲Walt的生成視頻模型,比OpenAI的Sora還要早幾個月問世。

③空間智能將賦予機器彼此互動的能力,甚至還能與人類互動,與真實或虛擬的三維世界互動。

訊科技訊 外媒消息稱,知名計算機科學家李飛飛正積極籌備一家初創企業,該企業旨在通過借鑑人類視覺數據處理技術,賦予人工智能高級推理能力,此舉無疑將推動該領域技術實現質的飛躍。

作爲人工智能領域的佼佼者,李飛飛開創性的貢獻已得到業界的廣泛認可。據知情人士透露,她已成功在近期種子輪融資中爲公司吸引了大量資金。其中,硅谷知名風險投資公司Andreessen Horowitz以及她去年加入的加拿大科技投資公司Radical Ventures均位列投資者名單之中。

在近期公開亮相的時候,李飛飛也避談她新的創業項目。外媒稱,在描述這家初創公司的願景時,一位消息人士引用了李飛飛上個月在溫哥華TED大會上的精彩演講。在演講中,她詳細闡述了一種前沿算法,該算法能夠合理推斷圖像和文本在三維環境中的表現,並根據這些預測採取行動。這一創新理念被業內專家譽爲“空間智能”。

近日,李飛飛在X上放出來她在 TED上的這段演講。

在宇宙誕生的初始階段,無盡的黑暗籠罩着一切,直至首批生物逐步演化出了視力,那一刻,生命的光輝得以綻放。如今,李飛飛預言,一個類似的轉折點即將在計算機與機器人領域上演。

在演講中,李飛飛詳細闡述了機器將如何逐步獲得所謂的“空間智能”,這一能力使得機器能夠高效地處理複雜的視覺數據,精準地做出預測,並基於這些預測迅速採取行動。此外,她還預判了這一突破性進展將如何改變人工智能在現實世界中與人類交互的方式。

以下爲李飛飛演講全文:

首先,讓我爲你們描繪一個畫面。準確地說,我並非要向你們展示任何具體的畫面,而是帶你們回到5.4億年前的世界。那是一個純粹而深邃的黑暗世界。由於光線微弱,天空並非呈現我們所熟悉的黑色。而由於視覺的缺失,使得周圍的一切顯得如此漆黑。

儘管陽光可以穿透到海面下1000多米的地方,再從熱泉口照向海底,那裡充滿了生命,但在這古老的海水中,卻沒有一隻眼睛去捕捉這些光影。沒有視網膜,沒有角膜,沒有晶狀體,所有的光和生命都隱匿在未知的黑暗中。那時,視覺這一概念尚未成形,前無古人,未有來者。直到那個特殊的時刻到來。

由於一些我們剛剛開始理解的原因,三葉蟲,這些最早能夠感知光線的生物,開始在這片古老的海洋中嶄露頭角。它們成爲了我們今日所熟知現實世界的首批居民,首次發現了除了自己之外,還有一個充滿無數生命的世界。

人們普遍認爲,視覺能力的出現,是寒武紀生物大爆發的關鍵所在。在這一時期,各種動物物種如雨後春筍般涌現。最初,視覺只是一種被動的體驗,一種簡單的讓光線進入感知的過程,但隨着時間的推移,它逐漸變成爲主動技能。神經系統開始進化,視覺不僅僅用於感知,更成爲了理解和行動的源泉。這一切都推動了智慧的誕生。

如今,我們不再滿足於大自然賦予我們的視覺智能,好奇心驅使着我們創造出與我們一樣聰明的機器。

九年前,在這個舞臺上,我發表了一份關於計算機視覺的早期進展報告,這是人工智能領域的一個重要分支。當時,三股強大的力量首次匯聚一堂。一種被稱爲神經網絡的算法,一種被稱爲圖形處理單元的專用硬件,以及龐大的數據集,如我的實驗室數年來整理的1500萬張圖片,被稱爲ImageNet。這三者的結合,共同開啓了現代人工智能的新紀元。

我們確實已經跨越了漫漫長路。曾幾何時,僅僅是給圖片加上標籤便被視爲一次巨大的飛躍。然而,這些算法的速度和準確性都在以驚人的速度提升。我領導的實驗室所主辦的ImageNet年度挑戰賽,正是這一進步的鮮明寫照。

在此圖表中,你們可以清晰地觀察到每年的改進以及那些具有里程碑意義的模型。我的學生和合作者們更是在這些工作的基礎上更進一步,他們創造了能夠精準分割物體,甚至預測物體間動態關係的先進算法。

然而,這僅僅是冰山一角。記得上次我向你們展示的,那個能夠用人類自然語言描述照片內容的計算機視覺算法嗎?那是我與我的學生安德烈·卡爾帕西(Andrej Karpathy)共同努力的成果。

當時,我半開玩笑地問他:“安德烈,我們能讓電腦做相反的事嗎?”他笑着回答:“哈哈,那簡直不可能。”但正如今天所見到的樣子,不可能最終變爲了可能。這得益於一系列擴散模型的突破,它們爲當今的生成式人工智能算法注入了強大動力,使得這些算法能夠將人類的提示轉化爲圖片和視頻。

你們中的許多人或許已經見證了OpenAI最近推出的Sora的驚豔表現。但值得一提的是,即便沒有龐大的GPU資源支持,我的學生和我們的合作者們依然成功開發了一個名爲Walt的生成視頻模型,它比Sora還要早幾個月問世。

你們可以看到其中的一些初步成果,儘管仍有改進的空間。舉例來說,看看那隻貓的眼睛,它在波浪下的模樣,顯然有些失真,像是從未被水打溼過一般。這確實是一個需要我們進一步優化的地方。

若以過去爲序幕,我們將從這些錯誤中汲取寶貴的教訓,共同創造一個我們夢寐以求的未來。在這個未來,我們期待人工智能能夠爲我們完成它所擅長的一切,或是成爲我們得力的助手。

多年來,我一直強調拍照與觀看、理解之間存在顯著差異。而今天,我想再補充一點:僅僅觀看是遠遠不夠的。觀看是爲了行動,爲了學習。當我們在這個三維空間和時間交織的世界中採取行動時,我們不斷學習,我們學會如何更深入地觀察,如何更有效地行動。大自然爲我們樹立了榜樣,它創造了一個由“空間智能”驅動的良性循環,將觀察與行動緊密相連。

爲了更具體地闡述空間智能在日常生活中的作用,請仔細觀察這張圖。當你準備採取行動時,請舉手示意。就在那一刻,你的大腦迅速捕捉到了這個杯子的幾何形狀,它在三維空間中的精確位置,以及它與桌子、貓和其他物體的相互關係。這種瞬間的分析能力讓你能夠預測接下來可能發生的事情。這種行動的衝動,是所有具備空間智能的生物與生俱來的本能,它將我們的感知與行動緊密相連。

若想推動人工智能超越其現有的界限,我們所追求的不再是僅限於視覺識別和語言交流的智能體。我們渴望的是那些能夠行動的人工智能,能夠主動介入並與我們生活的世界互動。

確實,我們正在取得令人興奮的進展。在空間智能領域,最近的里程碑便是教會計算機觀察、學習、行動,並在實踐中不斷提高其觀察能力。這並非易事。大自然歷經數百萬年的進化才賦予了生物空間智能,它依賴於眼睛接收光線,在視網膜上形成二維圖像,隨後大腦將這些數據轉化爲三維信息。直到最近,谷歌的一組研究人員纔開發出一種算法,能夠通過拍攝一系列照片,將它們轉化爲三維空間模型,就像我們在這裡所展示的例子一樣。

我的學生和我們的合作者們更進一步,他們創造了一種算法,能夠將輸入的二維圖像轉換成三維形狀。這裡有更多的實例供你們參考。

回想一下,我們之前討論過計算機程序如何將人類的文字提示轉化爲視頻。現在,密歇根大學的一組研究人員已經找到了一種方法,可以將簡單的文字描述轉化爲三維房間的佈局,就像這裡所展示的這樣。與此同時,我在斯坦福大學的同事們及其學生也已經開發了一種算法,僅憑一張圖像便能生成無限逼真、可供觀衆探索的三維空間。

這些進展只是未來可能性的初步跡象,它們爲我們揭示了一個嶄新的世界。在這個世界中,人類可以將整個現實世界轉化爲數字形式,並對其豐富性和細微差別進行建模。大自然在我們個人的意識中悄無聲息地完成了這一壯舉,而空間智能技術有望爲我們的集體意識帶來同樣的變革。

隨着空間智能技術的飛速發展,一個良性循環的新時代正在我們眼前展開。這種反覆循環的過程將極大地促進機器人的學習,這對於任何需要理解三維世界並與之互動的智能系統來說都是至關重要的組成部分。

十年前,我的實驗室通過啓用ImageNet數據庫,引入了一個包含數百萬張高質量照片的龐大資源,爲訓練計算機的識別能力奠定了堅實的基礎。如今,我們採用類似的方法,但目標已經轉向訓練計算機和機器人在三維世界中的行爲和動作。不過,這次我們不再侷限於收集靜態圖像,而是着手開發由三維空間模型驅動的模擬環境,這樣計算機就能擁有無限多種學習行動的可能性。在我實驗室領導的一項名爲“Behavior”的開創性項目中,你們所見的僅僅是教導我們機器人的一小部分例子。

在機器人語言智能領域,我們也取得了令人矚目的進展。藉助基於語言模型的大型輸入,我的學生和我們的合作者成功展示了機械臂如何根據口頭指令執行多種任務,比如打開抽屜、拔掉手機充電插頭,甚至是用麪包、生菜和西紅柿製作三明治,並貼心地爲使用者放置一張餐巾。儘管我總是希望在三明治裡多加一些配料,但這無疑是一個良好的開端。

回溯到生命起源的海洋,在遙遠的古代,生物通過感知和觀察環境的能力,開啓了與其他生命形式互動的寒武紀大爆發。今天,這束照亮生命起源的光束已經觸及了數字思維的領域。空間智能賦予了機器與彼此互動的能力,更重要的是,它們還能與人類互動,與真實或虛擬的三維世界互動。隨着這樣的未來逐漸成形,它將對許多人的生活產生深遠的影響。

以醫療保健爲例,過去的十年裡,我的實驗室在利用人工智能解決影響患者結果和醫務人員倦怠的挑戰方面,已經邁出了初步的嘗試。我們與斯坦福醫學院緊密合作,正在試驗智能傳感器,這些傳感器能夠檢測臨牀醫生進入病房前是否正確洗手,或者記錄手術器械的使用情況,甚至在病人面臨身體危險(如摔倒)時及時提醒護理團隊。我們認爲這些技術是一種環境智能,它們如同多了一雙眼睛,確實能夠在醫療保健領域產生積極的影響。然而,我期望我們的病人、臨牀醫生和護理人員能夠得到更多互動的幫助,他們同樣迫切需要一雙額外的手。想象一下,一個自動化機器人負責運輸醫療用品,而護理人員則能專注於照顧病人。或者通過增強現實技術,引導外科醫生進行更安全、更快速、侵入性更小的手術。

想象一下,那些嚴重癱瘓的病人僅憑思想便能控制機器人。是的,通過解讀腦電波,他們能夠完成我們日常中習以爲常的任務。在我實驗室最近進行的初步研究中,你們已經窺見了這一未來的面貌。在這段視頻中,機械臂正在烹飪日本壽喜燒,而它的每一個動作,都僅由佩戴者通過腦電圖帽非侵入性地收集的腦電波來控制。

五億年前,視覺的出現如同一道曙光,照亮了一個原本黑暗的世界。它引領了生命史上最深刻的進化過程,推動了動物世界智力的飛速發展。與此相似,人工智能在過去十年中的進步同樣令人震驚。但在我看來,除非我們賦予計算機和機器人空間智能,否則數字寒武紀大爆發的全部潛力將不會完全實現,正如大自然爲我們所有人所創造的那樣。

這是一個激動人心的時刻,我們有機會教導我們的數字伴侶學習推理,並與我們稱之爲家的美麗三維空間互動。更進一步,我們還能創造更多新世界,等待我們共同去探索。然而,實現這樣的未來並非易事,它要求我們所有人都採取深思熟慮的步驟,開發出始終以人爲中心的技術。

但只要我們做對了,由空間智能驅動的計算機和機器人將不再僅僅是工具,它們將成爲我們值得信賴的合作伙伴。在尊重我們的個人尊嚴和促進我們的集體繁榮的同時,它們將提高和增強我們的生產力和人性。

最令我對未來感到興奮的是,人工智能將變得更有洞察力和空間意識。它們將加入我們的行列,一同追求以更好的方式創造一個更美好的世界。

(來源:騰訊科技 編譯/金鹿)

爲偉大思想而生!

AI+時代,互聯網思想(wanging0123),

第一必讀自媒體