Momenta智駕大模型,不僅僅是“端到端”
近日,埃安首款全球戰略車型——第二代AION V霸王龍正式發佈,該車型將搭載廣汽與Momenta共同打造的端到端高階智駕方案,應用了Momenta最領先的算法5.0。此前,另一家重要汽車製造廠商,廣汽豐田也宣佈了其鉑智3X車型將首發搭載該智駕大模型。Momenta已成爲中國第一批量產端到端方案的公司之一。
如今,通用大模型成爲AI業界的主流趨勢,位處不同場景的AI公司都在探索如何將大模型落地自身所在的產業。在自然語言處理場景下有大語言模型,在智能駕駛場景下,“端到端大模型”則成爲了最近的最熱話題。
由特斯拉FSD V12開始,今年來國內也有幾家頭部智駕公司官宣了自己的端到端大模型,在其中,Momenta的智駕大模型仍顯得與衆不同,其創新性地採用“短期記憶”和“長期記憶”兩條支路,使得最終端到端大模型的訓練成本可以縮小10到100倍,顯著提高訓練效率。
目前,Momenta已經與全球排名前十的汽車集團中的一半展開量產合作,成爲了交付車型最多的智能駕駛公司。8年的發展以來,這家公司探索出一條獨特而成熟的發展路徑,並在今年年初通過證監會備案,正式啓動赴美上市。如果成功,它會成爲美股中國自動駕駛第一股。
Momenta,正走在超越智駕摩爾定律的路上。
做最省錢的“智駕大模型”
端到端可謂是這兩年來自動駕駛行業最熱的話題之一。目前,通用大模型是AI技術的最新發展趨勢,不管在自然語言處理、計算機視覺還是自動駕駛,都在逐漸由多個專用小模型驅動,進化到將這些模型融合爲一個更加通用的大模型去完成任務。
2024 年,特斯拉的完全自動駕駛系統FSD V12上線,將感知到決策融爲一個貫通的大模型,即“端到端大模型”:一端輸入攝像頭等傳感器獲得的數據,另一端直接輸出車輛行駛軌跡。最直觀來說,FSD V12的端到端神經網絡取代了30多萬行C++代碼。
特斯拉一出手,包括蔚小理這樣的新勢力車企,和地平線、元戎啓行、毫末智行、商湯絕影等多家智駕公司都宣佈跟進這一技術路線。但是實際上,各家所謂的“端到端”並非都是同一種框架下的產品。
自動駕駛有感知、規劃與決策和控制三個模塊,靠感知 “看”,靠決策 “思考” 怎麼開車,靠控制模塊完成駕駛行爲。國內目前大部分“端到端”還停留在已構建感知模塊模型,探索規劃、控制模型的階段,三者還未做到完全融合。而Momenta的智駕大模型,已將視覺模型和決策模型合併,變成了一個貫通的端到端大模型,Momenta也成爲中國第一批量產端到端方案的公司。
Momenta對智駕領域的端到端,或者說深度學習的探索最早開始在2020年,到2022年初,開始量產高速NOA,Momenta決定選擇用深度學習方法做量產方案的決策模塊,2023年上半年,基於深度學習的規劃算法已經可以成熟量產上車,這個時間點甚至早於特斯拉。
在端到端上,Momenta與特斯拉的路線相似但不同,最大的創新點在於,其智駕大模型分爲兩條支路——“短期記憶”和“長期記憶”。
“短期記憶”由感知(DDLD)和規劃(DDOD),以及記憶與深度學習的規劃(DLP)構成,通過這樣的方式,可以先進行快速訓練,驗證用於訓練的數據是否正確,以及訓練使用的算法是否有效。最終,被“短期記憶”驗證過的好的算法和數據會在一段時間的積累後應用在“長期記憶”,即最終的端到端大模型上,這樣可以保證一次就能把大模型訓練好。
這樣的邏輯與人類學習的邏輯類似,人類在探索環境的過程中同樣會先更新短期記憶,然後再將已經驗證過的成功經驗更新進長期記憶中,這樣就能夠更加低成本、短週期地去適應環境。
“低成本+短週期”,這正是現在端到端,乃至所有通用大模型最需要的東西。
“用深度學習去做自動駕駛是一個開始,不是一個結束”曹旭東說。智駕大模型構建起來之後,未來還需要很多的探索和升級。
在學術界,端到端並不是一個新鮮的概念,已經有諸多相關論文和研究。但是直到去年,在帶高階輔助駕駛功能的量產車大規模落地後,有了海量數據和海量算力加持,這才取得了突破性進展。這也證明了,在探索的過程中,大模型的演進邏輯決定了,其需要大量的數據和算力的投入才能達成一定的訓練效果,這同時也意味着巨大的成本投入。
“從特斯拉的開發經驗來看,端到端自動駕駛真不是一般的企業能玩的,其所需的數據規模、算力規模遠遠超出國內企業的承受能力。”有智能駕駛業內人士告訴界面新聞。
該業內人士判斷,數據會佔據端到端自動駕駛開發中80%以上的研發成本。根據特斯拉的計算,完成一個端到端自動駕駛的訓練至少需要100萬個、分佈多樣、高質量的 Clips (視頻片段)。算力也是很大的限制。爲了能在雲端處理這些數據,當前特斯拉擁有近10萬張英偉達的A100,位居全球top5。埃隆·馬斯克在社交平臺表示去年花了20億美金構建特斯拉的數據中心,今年計劃用100億美金做自動駕駛的訓練和推理。其目標是,依靠英偉達的GPU和自身的Dojo超級計算機,要在2024年底達到100EFlops的算力,遙遙領先。
而在美國多輪制裁之下,國內採購GPU難上加難。大部分企業手裡擁有的算力資源非常有限,擁有超過1000張A100的企業寥寥無幾,甚至全國加起來都沒有特斯拉一家企業多。
如此高的投入使得自動駕駛大模型的試錯成本昂貴,如果訓練方法或者數據處理做得不好,一次模型訓練所花費幾百萬美金可能就會打水漂。
而曹旭東透露,Momenta使用“長期記憶”和“短期記憶”配合的方式,能夠讓智駕大模型的訓練成本縮小10到100倍。這無疑是一個無比誘人的數字。
面對特斯拉在數據和算力上的先發優勢,Momenta爲國內企業提供了在端到端大模型上加速趕超的有效解法。
超越智駕的“摩爾定律”
創立之初,Momenta在一衆智駕公司中就顯得有些“與衆不同”。智能駕駛技術的實現路徑一直存在漸進式與跨越式之爭。漸進式路線是指從難度相對較低的輔助駕駛入手,逐步完成從L0到L5的佈局;跨越式路線則是提倡直接研發L4及以上自動駕駛,一步到位。
當各家公司紛紛試圖證明自己選擇的那一方纔是最優路線時,Momenta選擇了“兩個都要”,即“一個飛輪,兩條腿”的戰略。
“一個飛輪”是數據驅動的AI飛輪。實現規模化無人駕駛需要解決的最重要的問題就是長尾問題(corner case),這些問題在實際生活中很少見,但是無人駕駛系統在設計時必須做到覆蓋,在遇到時才能夠應對。
這樣的長尾問題有數百萬個,因此很難用人工針對每一個問題設定規則、逐一攻破。Momenta提出的解法是以數據驅動的飛輪自動化地解決。這樣的解法現在也成爲了自動駕駛界的共識,而領先一步的Momenta目前數據驅動的飛輪已經迭代到第五代。從第一代能夠自動化地解決50%的問題,到現在超過99%的問題都可以通過第五代系統自動化地去解決,極大提升了整個研發迭代的效率。埃安本次與Momenta合作的車型上就搭載了其算法5.0。
那麼,有了數據飛輪算法,究竟需要多少數據才能夠實現規模化的L4呢?
根據Momenta的測算,驗證一套系統是否達到了可規模化的L4水平,需要至少1000億公里的數據。這樣大的數據量必須要量產車才能採集到。
基於此,Momenta又有了“兩條腿”走路的產品戰略,即通過量產車上人類司機的海量駕駛數據自動化地訓練算法,實現算法的快速成長。隨着數據積累和算法迭代,飛輪也將越轉越快。
最終,Momenta的目標是實現全國都能開甚至全球都能開的可規模化L4,並且能夠達到10餘倍人類司機的安全水平。
無疑,智駕大模型大規模量產後,Momenta的飛輪會轉得更快。
Momenta內部有智駕的摩爾定律的說法,包含智駕硬件的摩爾定律和智駕軟件的摩爾定律兩個部分。在硬件上,每兩年硬件的成本會降一半,在軟件上,每兩年智駕的水平至少提升10倍。
“未來,能夠跟上(智駕)摩爾定律的公司能夠生存,能超越摩爾定律的公司能夠成爲一家卓越的公司。”曹旭東說。
2016年成立以來,Momenta已有8年的歷史,上汽、通用汽車、奔馳、豐田等車企都與其有合作,最終這些企業也成爲了Momenta的戰略投資人。
車企之外,Momenta的投資人名單裡還有知名投資機構如淡馬錫、IDG資本、GGV紀源資本,也有互聯網大廠如騰訊、馬雲的雲鋒基金、小米系順爲資本,以及博世這樣的一級供應商,陣容堪稱豪華。
這家公司現在已與全球排名前十的汽車集團中的一半企業開展量產合作,是最早開始做量產交付的智駕公司,同時也是目前交付車型最多的公司。已交付過類似高階方案的供應商現在只有華爲和Momenta,自研智駕的車企中,則只有蔚小理。
Momenta,正走在超越智駕摩爾定律的路上。