☰

一年砸10億，理想發力端到端，只落後特斯拉半年了？

進階至端到端競賽，車企在智駕領域的段位便明顯拉開了差距。其中影響因素諸多，數據量和算力是兩個重要因素，也是車企在端到端時代面臨的最大挑戰。這背後，裹挾着車企的財力、人力與判斷力。也可能過去數年的數據積累，到如今一無用處。但是沒人可以置身事外，逃避就意味着被淘汰。角力智駕，端到端只是一個開始。

文 |魏冰

編輯 |李歡歡

運營 |土豆

智駕，已經成了衆車企不得不攻下的堡壘。

這是一個不進則退的賽場，稍不留神，就會被對手甩在身後。從2023年開啓的開城之戰，到如今的端到端競賽，場上的玩家不得不繃緊了神經，不敢有絲毫懈怠。

所謂端到端，即深度學習中的概念，英文爲“End-to-End（E2E）”，指的是一個AI模型，只要輸入原始數據就可以輸出最終結果。應用到自動駕駛領域，意味着只用一個模型，就能把攝像頭等傳感器收集到的感知信息，轉換成車輛方向盤怎麼轉、油門踩多少等操作指令，讓汽車自動行駛。

和傳統的通過感知、規劃與決策、控制三個模塊體系下的智駕方案不同，端到端的優勢在於，從感知到決策直接用一個大模型解決，輸入傳感器信號之後，系統直接發出行動指令，減少了信息在不同模塊之間傳遞時的“損耗”和偏差。

眼下，華爲、蔚小理、特斯拉，甚至比亞迪和奔馳等傳統車企，都在卷端到端，但各家的思路與進展，又各不相同。比如，特斯拉和理想的思路是One Model（一個大模型），在此基礎上，理想又率先在業內落地了雙系統——端到端+VLM（視覺語言模型），華爲和小鵬則是分段式端到端。

▲ 智能駕駛概念圖。圖 / 視覺中國

這其中孰優孰劣？理想認爲，要想向L3、L4級別的自動駕駛進階，One Model更適合，這代表着一種更高級的迭代和研發流程，而分段式更適合做L2級別的輔助駕駛。

比蔚來和小鵬晚兩年才自研智駕的理想，怎麼就後來居上了？

在理想內部，有RD和PD兩條脈絡研發智駕，PD是產品交付研發，推送給全量用戶、千人團測的版本由該團隊負責，RD可以理解爲“超前作業”，負責預研技術，探索理想通向未來人工智能的方向。在這樣的架構下，理想的這套“端到端+VLM”的方案，只用了大約一年多的時間便完成了三代迭代。

▲ 理想“端到端+VLM”方案。圖 / 理想汽車官方

這背後需要付出的時間與精力，旁人大概是難以想象的。理想汽車智能駕駛研發副總裁郎鹹朋坦言，大家爲此捨棄了“個人休息時間”，但也別無選擇、沒有退路，“大家都清楚公司的目標是什麼”。

去年理想秋季戰略會上，CEO李想明確強調，智能駕駛是核心戰略，並給內部確定了時間節點，“2024年要成爲智駕的絕對頭部”。

除了一號位自上而下傳導的壓力，還有用戶層面的鞭策，理想汽車智能駕駛技術研發負責人賈鵬自我調侃：“自從2020年由英偉達入職理想後，每天面臨的環境就是——我們是後進生，天天被家長（用戶）罵。”

這讓理想如履薄冰，不得不加速追趕，且沒有捷徑可走。雖然已經有特斯拉提前交卷，但直接抄作業卻行不通。郎鹹朋與曾經負責小鵬智駕業務的吳新宙達成共識，整個過程可以加速，但不能跳過，否則會跳過對很多技術的理解。

因此，雖然時間緊急，理想還是率先嚐試了NPN方案（Neural Prior Net，先驗神經算法，使用部分道路和地圖的先驗信息，幫助車輛識別道路特徵，減少對高精地圖的依賴），趕在年底實現了百城NOA的Flag，但理想發現“只要用圖就做不了全國落地”，因爲偏遠城市的車不多，數據迭代就有問題，而這些歸根結底都是受到了地圖的限制。

▲ 理想汽車系統1率先嚐試了NPN方案。圖 / 理想汽車官方

意識到問題，理想快速切換到無圖方案。不過無圖模式對資源的消耗很大，這種方式有解決不完的Coner case，郎鹹朋解釋：“我什麼時候超車變道？是前面車壓我30公里時速時，還是20公里時？在某個速度條件下，旁邊有實線我變不變？旁邊有車我變不變？後邊來車變不變？”Coner case的場景是無窮無盡的，但“邊界是顯而易見的”（依靠處理Coner case來解決極端場景的能力是有限的）。

到了這一步，端到端便擺在了理想面前。郎鹹朋表示，理想不是爲了端到端而做端到端，理想的智駕方案迭代，是“把技術全都做完一遍之後，遇到問題解決問題的一個實事求是的過程”。對手的進程不太會影響理想，李想強調，用戶體驗纔是做決策的衡量標準。

在這個過程中，理想漸漸摸索出自己的思路。

在天津實測的時候，郎鹹朋發現天津的紅綠燈是進度條式的，和其他城市的紅綠燈不太一樣，怎麼讓系統理解新的場景？這需要讓系統獲得邏輯推理的能力。在這個時候，理想看到了雙系統理論。

於是，理想在端到端模型外，連接了一個VLM （視覺語言模型），這樣便形成兩個系統，系統一負責行駛過程中及時的響應處理，系統二用來解決複雜的需要邏輯推理的問題。

▲ VLM（視覺語言模型）。圖 / 理想汽車官方

端到端能否做好，主要影響因素是數據和算力。

今年初，特斯拉正式在北美推送FSD V12，理想智駕團隊曾遠赴美國體驗該系統，總結下來，“特斯拉FSD在美國西海岸的體驗確實很棒，不過到紐約之後性能急劇下滑”，這可能和數據量有關。

在這方面，郎鹹朋表現出絕對的自信。一方面，理想是增程車，沒有里程焦慮，偏遠的地方都能去，所以數據分佈足夠廣。另一方面，被外界詬病的“套娃造車”，郎鹹朋卻覺得對自動駕駛來說是一種優勢，所有的攝像頭規格、安裝位置都是一致的，數據量非常充足且可以複用。

海量的數據，也不是拿來就能直接用，需要篩選出優質數據，餵給系統，好讓系統迅速學習、成長。理想建立了一套自己的數據篩選標準——“老司機”，按照駕駛安全情況、駕駛風格等維度對80萬車主進行篩選，只有不到3%的車主通過了考覈。在這套標準下，從12億公里的原始數據裡只能篩選出幾千萬公里的數據。

除了數量和質量，數據的配比也會影響大模型的學習效果。郎鹹朋和團隊曾經發現，在等紅綠燈的時候，系統總想併線、加塞。研發人員覺得很奇怪，他們從沒給系統輸入這樣的數據。後來發現，是因爲他們把用戶長時間等紅燈的數據刪除了，所以系統沒學會等紅燈，混淆了等紅燈和堵車時的場景。補充這部分數據後，問題消失了。

時間來到2024年8月，車企在智駕賽道的角力異常激烈。大約一個月前，蔚來正式宣佈量產端到端AEB（緊急制動功能），一週前，小鵬在AI智駕發佈會上強調，除了特斯拉，只有自己實現了端到端量產落地。不曾想，幾天後，華爲在享界S9實測中率先秀出了“車位到車位的端到端”能力。

▲ 享界S9。圖 / 享界汽車官方微博

但這只是一個開始，智駕是一場費時費力的馬拉松，沒有一定資本，甚至上不了賽道。

畢竟，在數據之外，影響端到端效果的另一個因素——算力，需要數額不菲的資金做後盾。據郎鹹朋透露，目前理想有1.5萬張等同於A100、A800算力的GPU，每年光是在租卡上就要投入10億人民幣，但這還遠遠不夠。將來，理想預計花在這方面的費用將高達每年10億美元。

“如果你一年拿不出10億美金訓練系統，可能會在將來的自動駕駛競爭中被淘汰。”理想很清楚，在卷向自動駕駛的過程中，會拖死一批友商。

以下是理想汽車智能駕駛副總裁郎鹹朋、理想汽車智能駕駛技術研發負責人賈鵬與每人Auto等對話的問答節選（在不影響原意的情況下，有刪改）：

用系統一還是系統二，將來大模型自己決定

問：爲什麼要切換至端到端？

郎鹹朋：去年一年我們做了三代技術研發，從最開始的高速做到城市，城市裡面我們先是用了NPN方案。今年年初我們從“百城”切換到無圖，在做無圖的過程中，我們意識到無圖的能力是有上限的，如果再繼續做這個方案，就需要很多人和資源，去設計場景、實現場景、測試場景。

從無圖再迭代到現在的端到端方案。在這個過程中，我們發現這套方案對後期的L3、L4級別自動駕駛來說，有一個非常大的問題，就是遇到新的場景沒辦法正確處理。舉個例子，天津的紅綠燈是進度條式的，和其他地方燈泡或者倒計時類型的紅綠燈不太一樣。人類可以輕鬆識別，它就是紅綠燈，並且根據紅綠燈的指示，正常的停止啓動。

我們需要讓系統也有這種對場景的理解能力，在這個時候我們看到雙系統的理論：快系統做出及時的處理響應，慢系統對應複雜的思考和邏輯判斷，雙系統共同組成了人類認知和思維的機制，我們就想這套系統的理論怎麼運用到自動駕駛上，最終選擇了端到端模型來實現系統一，系統二用VLM的視覺語言大模型來實現。

問：系統一和系統二如何分工？

賈鵬：我們是兩個模型，有兩顆Orin-X，一顆是跑端到端，模型相對小一些，大概三四億的參數量，然後跑到十幾赫茲，會高頻地控車，因爲要實時控車。VLM雖然參數量大，但也不能一兩秒控一次，現在我們把它優化到大概三四赫茲的準實時水平，大概三百毫秒的延遲。系統每時每刻都在做決策，輸出兩個決策，比如一個是讓行減速還是避讓，然後第二個會給出參考的軌跡，比如說是朝這條車道還是朝那條車道開，這兩個信息都會直接喂到模型裡，然後同時出結果，大概是這麼一個結構，系統一併不是完全採納系統二的意見，系統二是增強系統一的決策。

L3階段的自動駕駛，系統一發揮主要的作用，系統二隻是一個參考或者諮詢特殊情況，到L4的時候，系統二發揮作用會更多，不是說系統二時時刻刻都在控車，而是它真的在發揮非常重要的決策和判斷作用，在一些未知場景下，系統二的能力決定了能不能到L4，但系統一的基礎能力是L3的必要保障。

▲ 雙英偉達Orin-X。圖 / 理想汽車官方

問：未來兩個系統會合二爲一嗎？

賈鵬：這是我們在預研的下一步，現在的想法是量產的還是兩個模型，目前無圖6.0已經全國都能開了，我們想端到端+VLM這套東西可以做到全國都比較好開，那再往後，到底怎麼做一個量產級的L4，我們的思路是把模型的規模變得更大，容量更大，同時幀率變得更高。有機會是不是這兩個模型可以合一，是走系統一還是系統二讓模型自己去決定。所以如果將來有更大的算力芯片，有更好的平臺，這套系統可以發揮極大的作用。

問：後悔做NPN嗎？

郎鹹朋：不後悔，無圖有圖這些東西不去做，是領悟不到這些技術的一些特點的，技術研發就是踩坑的，踩了坑就趕緊往外爬。有些友商就是做了一套東西捨不得丟掉，就掉坑裡了。

問：理想的端到端技術和友商相比，優劣勢在哪？

郎鹹朋：我們的雙系統端到端有一些獨特的地方。首先，我們的端到端模型是第一個One Model的端到端模型，跟其他友商採用的分段式有很大區別。第二，我們的VLM模型是第一個能在車端部署並且量產的模型，其他的模型可能在他自己的訓練集羣上做訓練和測試，但真正用Orin-X這種量產的車端芯片去優化並且部署到車上，我們是第一個。而且這個模型足夠大，有22億的參數量，這已經是一個實際意義上的大模型了。這套雙系統也是我們第一個提出來並且落地的，從系統架構到系統實施上。

▲ 4D One Model端到端架構圖。圖 / 理想汽車官方

問：小鵬跟華爲都是分段式的端到端？

郎鹹朋：根據公開資料來看是這樣的。

問：要做端到端，會面臨哪些挑戰？

賈鵬：我們做了一段時間端到端之後，發現非常重要的就是它的數據配比一定要做到均衡，不能因爲北京上海的用戶多，數據就加得多，而應該按照場景去均衡配置。因爲對於Orin-X平臺來說，它能支持的模型的上限可能也就三四億參數，我能跑到十幾赫茲就是它的天花板，但這1000萬數據我怎麼去匹配？新疆放多少，北京放多少，雨天放多少，雪天放多少，這其實要花精力去研究這件事。這是端到端時代大家面臨的一個最大挑戰。

1000萬肯定不是在某個城市或者某個場景。所以說訓練也是非常重要的，我們現在在持續探索和迭代階段，同時多版模型是在一起訓練的，你的算力如果足夠大，同時可以訓練多版模型。

問：端到端拼的是什麼？

郎鹹朋：一是有沒有足夠多高質量的數據；二是有沒有與之匹配的充足的訓練算力的集羣。

問：有車企苦惱，以前的數據在端到端時代有很多用不上，他們得拆以前的橋，同時搭新的橋，又要建能夠檢驗它的安全體系，你怎麼看這個問題？

郎鹹朋：在我看來，他這句話前後矛盾，他是說數據不那麼重要，但又暗涵數據很重要。我第一次跟李想談話的時候，他問我你覺得實現自動駕駛最重要的是什麼？當時很多人覺得是人才和資金，我和李想的想法非常一致，我們都覺得是數據，沒有數據，將來算法的訓練也好，驗證也好，都沒有基礎。

我們從2019年交付第一輛車開始，去積累數據並且搭建我們的數據平臺。大家都吐槽我們在套娃，但套娃對自動駕駛有極大的好處，所有的攝像頭規格和安裝的位置都是一致的，這些數據我們完全可以複用。其它車企有轎車，有SUV，可能傳感器也不太一樣，所以對他們來說確實是個挑戰。

問：現在國內車企在端到端這條路上是在同一起跑線嗎？

郎鹹朋：國內廠商在端到端是同一起跑線，如果是看One Model的話，可能我們會領先一些。在One Model的基礎上，我們首先發布了自己的鳥蛋版本，而且是千人規模這樣一個比較大量的發佈和交付，大家在使用過程中也切身體驗到端到端與之前無圖方案相比，在性能和體驗上的提升，這是我下判斷的基礎。

每年拿不出10億美元，玩不了智駕

問：理想怎麼篩選數據？

郎鹹朋：我們的產品團隊和主觀評價團隊都是老司機，這些人開車的經驗非常豐富，按照駕駛安全情況、駕駛風格等維度對80萬車主進行篩選，只有不到3%的車主通過了考覈。

問：理想篩選出的數據，是絕對正確的？

賈鵬：我覺得還是幻覺問題。我們去壓制幻覺，其實取決於後面GPU的部分怎麼去加入這種懲罰數據，跟教育孩子是一樣的，你教育多了他就不犯錯了，主要取決於最後做的好不好。

問：理想有多大算力，來支持端到端研發？

郎鹹朋：理想目前有等同15000張A100、A800算力的GPU。

▲ 端到端的四大亮點能力。圖 / 理想汽車官方

問：理想每年在算力上的投入有多少？

郎鹹朋：理想租卡一年要花費10萬人民幣，未來可能需要10億美金每年。

問：需要多大算力儲備，才能拿到未來的入場券？

郎鹹朋：現在理想實踐下來，一年10億人民幣的算力花銷，這是一定要有的。否則，要不迭代速度慢，要不產品競爭力不足，未來我們覺得可能10億美金一年是必須要有的算力投入。

我們自己也大概估算過，現在大概有15000張卡，已經挺緊張了，天天協調卡怎麼分配，但是隨着模型參數量的增長，我覺得至少需要3-4倍的算力，因爲算力本身就提升了很多，那麼它帶寬存儲都提高很多，約10萬張A100對應的可能是30億flops的算力。

問：端到端要正式推送給用戶的標準是什麼？

賈鵬：我覺得還是用戶體驗。我們爲什麼要有千人早鳥版本，而不是自己去設定一些接管目標，我覺得如果千人用戶和萬人用戶，他們體驗都挺好，就可以推，或者是超越無圖版的體驗也可以。

問：從後進生到提前交卷，理想做了什麼？

郎鹹朋：一是組織能力；二是效率，理想一直鍛鍊自己快速執行的能力；還有一點，就是我們5年來對數據驅動的工具鏈的建設。這個非常關鍵，即使現在有算力又有數據，如果沒有一個完整高效的工具鏈或者數據系統，就無法高效運轉。

問：理想的目標是今年要成爲智駕絕對頭部，怎麼定義絕對頭部？

郎鹹朋：最終還是看量，今年我們的AD MAX的車銷售數量是否在市場上是領先的？這是最硬核的指標。我只看MAX版本的銷量。

我們從6.0到端到端這一個月以來，進店量更多了，銷量也提升了十幾個點，這就證明用戶在實打實地爲你的技術買單，這是最有說服力的。

理想只落後特斯拉半年了

問：之前說，理想的產品體驗落後特斯拉半年，這個結論是怎麼推演出來的？

郎鹹朋：從特斯拉FSD V12.3開始，我們定期去美國測試。基本連續試了一週，西海岸東海岸都試過，感受下來，特斯拉在美國西海岸確實表現很棒，因爲數據是最多的。但到了東海岸就會發現性能急劇下滑，尤其到了紐約之後基本MPI到10、11左右，其實跟咱們現在在國內開基本沒什麼太大差別。但即使是紐約，你會發現它比上海、廣州的複雜程度還是差很多。另一方面因爲特斯拉可以獲得很多國內沒有的信息，是建在了很好的基礎之上，才能做到這個體驗，所以我們做出了這樣的判斷。

問：要達到特斯拉的這種所謂行業公認的能力，需要投入和他們一樣的算力？

郎鹹朋：也不是非要看特斯拉，只是說在過程中遇到問題解決問題。其實就兩點，一個是有充足的數據，一個是充足算力，這是建立在我們的模型參數的基礎上，加上我們現在是兩三個億的端到端加22億的VLM，將來可能隨着下一代芯片的擴展，參數量還會增大，特斯拉已經到百億參數量級，是我們的5倍，5倍的數據，算力也要成倍增加。

▲ 理想汽車的自動駕駛系統考試方案。圖 / 理想汽車官方

問：特斯拉是走純視覺路線，理想保留了激光雷達，激光雷達是未來實現自動駕駛的必須配置？

賈鵬：激光雷達就是一個傳感器，最大的作用是在安全上加分，這個安全不僅是對自動駕駛系統，在人開車的時候也可以提供安全，比如主動安全AEB、緊急轉向AES等。激光雷達相對於視覺方案安全係數更高。我們把激光雷達看作安全帶一樣的配置，以後可能是車的標配。

問：業內認爲，目前跑在最前面的是特斯拉和比亞迪。在下半場競爭中，會有什麼樣的格局呈現？

郎鹹朋：上半場是電動化，下半場肯定是智能化，接下來大家會看到我們在智能化方面的投入和表現，端到端只是一個開始。

文章爲每人Auto原創，侵權必究。

一年砸10億，理想發力端到端，只落後特斯拉半年了？

相關資訊