☰

22年後英特爾放棄了超線程！Lunar Lake架構深度解析

新一代酷睿Ultra處理器Lunar Lake正式亮相

6月4日，在中國臺北舉行的COMPUTEX 2024展前發佈會上，英特爾正式公佈了新一代的AI PC處理器，也就是第二代酷睿Ultra中的移動版，代號爲Lunar Lake的超低功耗處理器。

要知道，酷睿Ultra（Meteor Lake）是去年12月正式發佈的，距今不過半年時間，彼時，酷睿Ultra以開創性的分離式模塊架構，成爲英特爾客戶端SoC歷史上40年來的重大變革。我們以爲這種架構至少會延續一段時間，最起碼不應該變得這麼快，但從公佈的Lunar Lake架構細節來看，信息量巨大，英特爾堪稱在革自己的命，比如自2002年首次推出的超線程技術不再使用，比如首次將內存集成到封裝內，比如Metor Lake的低功耗能效核心LP E只存活了一代…具體細節請看我們接下來的詳細解析。

首先說明一點，Lunar Lake是針對輕薄筆記本、掌機類產品設計的，側重於低功耗、高效能以及增強的AI能力，設計功耗（TDP）僅有17瓦。根據英特爾的路線圖，後續的高性能移動版以及桌面版尚在開發中，Arrow Lake、Panther Lake還需要等待一段時間。

全新性能核心砍掉超線程 E核當做P核用

Lunar Lake延續了Meteor Lake的分離式模塊架構，採用3D Foveros 封裝技術，但唯一的不同是：處處不同。Lunar Lake是一個全方位創新的新一代平臺，無論是計算部分、還是控制部分、以及AI部分都發生了巨大的變化。簡單來說：Lunar?Lake的整體功耗相比上代下降了40%；核芯顯卡的遊戲和圖形性能提高1.5倍；全新的NPU性能達前代4倍，平臺AI算力高達120TOPS。?

先來看看整個芯片架構中的Compute Tile，也就是計算模塊。首先，製造工藝升級爲Intel 20A（臺積電N3B製程），這也是英特爾“四年五製程節點”計劃中的預定推進時間。

計算模塊仍然採用混合架構設計，包含8個核心，4個性能核（P核）和4個能效核（E核），不再設有LP E，也就是低功耗能效核心，並且Lunar Lake只會提供這個規格的核心組合。

全新的性能核代號Lion Cove，首要的一個變化就是取消了超線程，也就是說英特爾自2002年發佈超線程技術以來，首次在主流處理器平臺上去掉了這個設置，原因也很簡單，通過架構優化，在取消超線程的設置下，性能功耗比反而提升了，而且還提升了性能晶片尺寸比。當然，超線程就沒有存在的必要了。

這也符合Lunar Lake的設計理念：去除任何對產品沒有貢獻的晶體管，以達到最高能效。Lion Cove着重優化了每瓦性能，這是衡量能效比的重要指標。它有2.5MB的L2緩存以及12MB的共享L3緩存，主要用來幫助實現出色的單線程性能。同時，這種微架構的突破爲後續幾代的P核設計奠定了新的基礎。新的設計讓性能核心實現了高達14%的代際性能提升，同時實現了更低的功耗。

全新的能效核心（Skymont）則是另外一種設計理念，Intel希望讓E核能夠涵蓋更多的日常算力要求，日常應用、非極端重載的情況下，甚至不希望P核運行，從而降低能耗。所以Lunar Lake的E核是按照與Raptor Lake的P核性能相當的目標去設計的，同時還要保持E核級別的能效水平。

從12代酷睿之後的幾代芯片中，E核已經被證明是比超線程更高效的一種多線程加速手段，也就是說如果要追求多線程性能，與其賦能超線程，不如去提高E核的能效。

在Lunar Lake上，這4個能效核有4MB的L2共享緩存，與Meteor Lake的LP E核心相比，能提供2倍的單線程性能和4倍的多線程性能，而且它增加了AI向量計算的吞吐量，使得其能夠用於處理複雜的AI計算任務。

Skymont提高了核內並行處理能力，並在此基礎上優化了能耗。和Raptor Lake的P核相比，IPC性能提高了2%，如果與Meteor Lake的LP E核相比，整數性能提升38%，浮點性能提升68%，非常可觀。

功耗方面，和Meteor Lake的LP E核相比，Skymont僅用1/3的功耗就取得了一樣的性能。因爲Raptor Lake功耗涵蓋的範圍更廣，可以跑在非常高的功耗區間，所以其絕對性能還是會超過Skymont，但Lunar Lake是面向移動端的產品，所以功耗範圍是低於Raptor Lake的。因此在日常工作負載時，Skymont的性能表現相當領先，同樣的性能下功耗只有Raptor Lake P核的60%，同功耗下，性能又比Raptor Lake的P核高出20%。

並且，Skymont核心的微架構是靈活的，Lunar Lake上只是4核心的配置，但在不久的將來，其它產品線，如桌面級處理器都會採用Skymont微架構。所以Skymont微架構的設計初衷不僅是低核心數，它也是非常適合於多核心的部署，這個架構是有延展性的。

通過以上的分析，我們不難發現Lunar Lake的性能核和能效核的設計形成了巧妙的互補，因爲二者的完美協作，在廣泛的任務當中能夠既能體現它的性能優勢，又能節省更多的功耗，幫助筆記本獲得更長的續航時間。在較低功耗的區間，E核的性能實際上更強，但P核的功率上限更好，性能寬度拉得更極致。因此儘管P核取消了超線程，整個處理器的線程數量減少了，但Lunar Lake仍然能夠取得多核性能的提升。

在性能核與能效核的調度方面，英特爾Lunar?Lake中的硬件線程調度器（Intel Thread Director）也有改進與優化，帶來了動態調度策略、增強算法、更精細的控制，EEM也有更大的定製範圍。硬件線程調度器會充分考慮能效，如工作負載合適將優先分配給單能效核，多線程時進行能效核擴展，再根據需求引導至性能核。同時配合操作系統隔離區、加強電源管理等設計，也可以提高能效。

率先採用Xe2架構GPU圖形性能與AI雙提升

接下來，我們來看看Lunar Lake的GPU部分，自Meteor上首次使用銳炫獨顯同源的Xe-LPG架構後，核芯顯卡的性能有了明顯的提升，這次Lunar Lake更加勇猛，甚至先於銳炫獨顯就用上了新一代的Xe2 GPU微架構。

代號爲Battlemage的全新GPU設計結合了兩項創新技術：Xe2 GPU核心用於圖形處理、Xe矩陣擴展（XMX）陣列用於人工智能。

Xe2 GPU提供了8個Xe核心，同時還有8個光線追蹤單元，和上一代相比，遊戲和圖形性能提高了1.5倍。全新的XMX矩陣擴展單元作爲第2個AI加速器，可以提供高達67 TOPS的性能，爲AI內容創作提供出色的吞吐量，能夠爲人工智能應用在集顯上運行提供更好的性能。

總結來說，全新的Xe集顯加上軟件優化，與上一代相比圖形性能提升超過50%，同時在人工智能的計算方面，有着3.5倍的提高。

除此之外，Lunar Lake也提供了非常好的視覺體驗，全新設計了顯示和媒體部分。媒體引擎增加了H.266，也就是VCC（多功能視頻編碼），VVC的優勢在於降低比特率並保持同等畫質，從而減少文件大小和傳輸壓力，可自適應分辨率碼率，更加靈活，還支持屏幕內容編碼流(SCC)、360度全景碼流。

顯示部分，全新顯示引擎可支持HDMI?2.1、DP?2.1、eDP?1.5，支持三路顯示，低功耗的eDP可以確保能效核高質量的顯示性能。Lunar Lake還提升了IPU影音處理單元的能力，主要提供了增強型的時域噪聲抑制，以及多幀靜態處理和改進的雙重曝光校錯HDR。

史上最強的AI算力 NPU性能提高3倍

既然是第二代AI PC，那麼NPU自然是另一個重點。Lunar Lake上的NPU被命名爲NPU 4.0，對，不是2.0而是4.0，因爲事實上2018年的神經網絡單元就是NPU的1.0版本。

全新的NPU 4與上一代的Meteor Lake相比，性能大幅提高3倍之多，算力達到48TOPS。英特爾表示Lunar Lake的NPU 4是“面向AI PC的最大的集成和專用AI加速器”。

NPU 4擁有12個用作向量計算的增強SHAVE?DSP，6個帶有緩存的神經計算引擎，支持原生激活功能和數據轉換以及大語言模型的嵌入標記化。新的NPU架構級效率提升，使得英特爾大規模人工智能戰略向前又跨出了一大步。

當然，AI計算不能只靠NPU，Lunar Lake的AI性能仍然聚合了GPU、CPU與NPU的多元算力，把所有的XPU加在一起，一共可以提供高達120 TOPS的算力。通過三種XPU不同的性能特點，Lunar Lake能夠使得所有的AI應用、用例得到完美的支持。這意味着更多參數的大模型可以在本地運行，更重負載的AI應用也能有更大的發揮空間。Lunar Lake將成爲AI PC更強大的基石。

首次使用封裝級內存先進的平臺控制模塊

Lunar Lake還有另外一個極其重要的特性——封裝級內存。通過使用新的MoP（Memory on Package）封裝技術將內存芯片首次集成到SoC中，2顆內存容量最高32GB，支持LPDDR5x，每個芯片最高8.5GT/s(8500MHz)，支持4個16bit通道。

由於內存就在SoC內部，因此縮短了內存走線，可以將Memory的物理功耗降低高達40%，這將帶來更好的功耗表現，同時對於AI和圖形性能的提升也有幫助。MOP還可以減少內存佔用面積，從而使得PCB的層數能夠降低，降低電路板設計的複雜性。

不過但要注意的是，使用MoP後，就不再支持外接內存，也就是筆記本的內存就是固定容量，不能再擴展了。

特別的是，Lunar Lake上首次引入了內存側的緩存區（Memory side cache），用來提升系統效率和系統性能。它有8MB的物理緩存，能夠把一些經常使用的數據緩存在這裡，以減少對DRAM的訪問，降低功耗，提高反應速度。同時，還可以緩存一些IO引擎，緩存區是高度可配置的，允許在引擎之間動態分配，適用於不同的應用。

Lunar Lake的平臺控制模塊（Platform Controller tile）也是一大亮點，集成了PCIe 5.0/4.0控制器、雷電4控制器、USB控制器、Wi-Fi與藍牙控制器、安全引擎等，重點在連接性方面進行了提升。Lunar?Lake提供最多4條PCIe 5.0、4條PCIe?4.0總線通道，支持Wi-Fi 7(5G Gig)，支持藍牙5.4，支持雷電4及雷電共享技術。計算模塊與平臺控制模塊通過可擴展第二代交叉總線以及D2D界面互聯，另外Lunar?Lake還集成4個電源控制器，可實現增強遙測，可動態調節電壓。Lunar Lake的電源管理架構也有了變化，獨立的PMIC與全新的能效核心、增強的英特爾硬件線程調度器、內存側緩存等一起，優化了能效，實現了整個SoC的既定設計目標。

變革之後是更大的變革一切皆可再超越

去年發佈的英特爾Meteor Lake平臺，無論是技術層面，還是AI層面，都足以在英特爾的歷史中成爲濃墨重彩的一頁，只是沒想到，僅僅半年之後，英特爾就開始革自己的命，創新之上在創新，全新的Lunar Lake變化之大令我們感到驚訝。

也許正如英特爾公司創始人戈登·摩爾先生在2015年說的那句話一樣，“WHATEVER HAS BEEN DONE, CAN BE OUTDONE”，超越永無止境，AI時代，一切纔剛剛開始。

據悉，Lunar Lake目前已經進入晶圓和芯片量產階段，將在第三季度正式發佈。Lunar Lake將爲來自20家OEM的80多款AI PC提供動力。英特爾預計在今年交付超過4000萬片英特爾酷睿Ultra處理器。

當下，對於英特爾來說，還有另外一個最重要的事情就是持續加強與操作系統、ISV廠商、大模型廠商以及開發者們的合作，繼續推動AI PC的生態建設，確保大模型以及軟件能夠在英特爾的GPU和NPU上有更深層的優化，以帶給用戶更好的體驗。畢竟AI PC這個賽道上，AMD、高通都也在發力，千帆競發，誰能勇立潮頭？我們拭目以待！

22年後英特爾放棄了超線程！Lunar Lake架構深度解析

相關資訊