22年後英特爾放棄了超線程!Lunar Lake架構深度解析

新一代酷睿Ultra處理器Lunar Lake正式亮相

6月4日,在中國臺北舉行的COMPUTEX 2024展前發佈會上,英特爾正式公佈了新一代的AI PC處理器,也就是第二代酷睿Ultra中的移動版,代號爲Lunar Lake的超低功耗處理器。

要知道,酷睿Ultra(Meteor Lake)是去年12月正式發佈的,距今不過半年時間,彼時,酷睿Ultra以開創性的分離式模塊架構,成爲英特爾客戶端SoC歷史上40年來的重大變革。我們以爲這種架構至少會延續一段時間,最起碼不應該變得這麼快,但從公佈的Lunar Lake架構細節來看,信息量巨大,英特爾堪稱在革自己的命,比如自2002年首次推出的超線程技術不再使用,比如首次將內存集成到封裝內,比如Metor Lake的低功耗能效核心LP E只存活了一代…具體細節請看我們接下來的詳細解析。

首先說明一點,Lunar Lake是針對輕薄筆記本、掌機類產品設計的,側重於低功耗、高效能以及增強的AI能力,設計功耗(TDP)僅有17瓦。根據英特爾的路線圖,後續的高性能移動版以及桌面版尚在開發中,Arrow Lake、Panther Lake還需要等待一段時間。

全新性能核心砍掉超線程 E核當做P核用

Lunar Lake延續了Meteor Lake的分離式模塊架構,採用3D Foveros 封裝技術,但唯一的不同是:處處不同。Lunar Lake是一個全方位創新的新一代平臺,無論是計算部分、還是控制部分、以及AI部分都發生了巨大的變化。簡單來說:Lunar?Lake的整體功耗相比上代下降了40%;核芯顯卡的遊戲和圖形性能提高1.5倍;全新的NPU性能達前代4倍,平臺AI算力高達120TOPS。?

先來看看整個芯片架構中的Compute Tile,也就是計算模塊。首先,製造工藝升級爲Intel 20A(臺積電N3B製程),這也是英特爾“四年五製程節點”計劃中的預定推進時間。

計算模塊仍然採用混合架構設計,包含8個核心,4個性能核(P核)和4個能效核(E核),不再設有LP E,也就是低功耗能效核心,並且Lunar Lake只會提供這個規格的核心組合。

全新的性能核代號Lion Cove,首要的一個變化就是取消了超線程,也就是說英特爾自2002年發佈超線程技術以來,首次在主流處理器平臺上去掉了這個設置,原因也很簡單,通過架構優化,在取消超線程的設置下,性能功耗比反而提升了,而且還提升了性能晶片尺寸比。當然,超線程就沒有存在的必要了。

這也符合Lunar Lake的設計理念:去除任何對產品沒有貢獻的晶體管,以達到最高能效。Lion Cove着重優化了每瓦性能,這是衡量能效比的重要指標。它有2.5MB的L2緩存以及12MB的共享L3緩存,主要用來幫助實現出色的單線程性能。同時,這種微架構的突破爲後續幾代的P核設計奠定了新的基礎。新的設計讓性能核心實現了高達14%的代際性能提升,同時實現了更低的功耗。

全新的能效核心(Skymont)則是另外一種設計理念,Intel希望讓E核能夠涵蓋更多的日常算力要求,日常應用、非極端重載的情況下,甚至不希望P核運行,從而降低能耗。所以Lunar Lake的E核是按照與Raptor Lake的P核性能相當的目標去設計的,同時還要保持E核級別的能效水平。

從12代酷睿之後的幾代芯片中,E核已經被證明是比超線程更高效的一種多線程加速手段,也就是說如果要追求多線程性能,與其賦能超線程,不如去提高E核的能效。

在Lunar Lake上,這4個能效核有4MB的L2共享緩存,與Meteor Lake的LP E核心相比,能提供2倍的單線程性能和4倍的多線程性能,而且它增加了AI向量計算的吞吐量,使得其能夠用於處理複雜的AI計算任務。

Skymont提高了核內並行處理能力,並在此基礎上優化了能耗。和Raptor Lake的P核相比,IPC性能提高了2%,如果與Meteor Lake的LP E核相比,整數性能提升38%,浮點性能提升68%,非常可觀。

功耗方面,和Meteor Lake的LP E核相比,Skymont僅用1/3的功耗就取得了一樣的性能。因爲Raptor Lake功耗涵蓋的範圍更廣,可以跑在非常高的功耗區間,所以其絕對性能還是會超過Skymont,但Lunar Lake是面向移動端的產品,所以功耗範圍是低於Raptor Lake的。因此在日常工作負載時,Skymont的性能表現相當領先,同樣的性能下功耗只有Raptor Lake P核的60%,同功耗下,性能又比Raptor Lake的P核高出20%。

並且,Skymont核心的微架構是靈活的,Lunar Lake上只是4核心的配置,但在不久的將來,其它產品線,如桌面級處理器都會採用Skymont微架構。所以Skymont微架構的設計初衷不僅是低核心數,它也是非常適合於多核心的部署,這個架構是有延展性的。

通過以上的分析,我們不難發現Lunar Lake的性能核和能效核的設計形成了巧妙的互補,因爲二者的完美協作,在廣泛的任務當中能夠既能體現它的性能優勢,又能節省更多的功耗,幫助筆記本獲得更長的續航時間。在較低功耗的區間,E核的性能實際上更強,但P核的功率上限更好,性能寬度拉得更極致。因此儘管P核取消了超線程,整個處理器的線程數量減少了,但Lunar Lake仍然能夠取得多核性能的提升。

在性能核與能效核的調度方面,英特爾Lunar?Lake中的硬件線程調度器(Intel Thread Director)也有改進與優化,帶來了動態調度策略、增強算法、更精細的控制,EEM也有更大的定製範圍。硬件線程調度器會充分考慮能效,如工作負載合適將優先分配給單能效核,多線程時進行能效核擴展,再根據需求引導至性能核。同時配合操作系統隔離區、加強電源管理等設計,也可以提高能效。

率先採用Xe2架構GPU圖形性能與AI雙提升

接下來,我們來看看Lunar Lake的GPU部分,自Meteor上首次使用銳炫獨顯同源的Xe-LPG架構後,核芯顯卡的性能有了明顯的提升,這次Lunar Lake更加勇猛,甚至先於銳炫獨顯就用上了新一代的Xe2 GPU微架構。

代號爲Battlemage的全新GPU設計結合了兩項創新技術:Xe2 GPU核心用於圖形處理、Xe矩陣擴展(XMX)陣列用於人工智能。

Xe2 GPU提供了8個Xe核心,同時還有8個光線追蹤單元,和上一代相比,遊戲和圖形性能提高了1.5倍。全新的XMX矩陣擴展單元作爲第2個AI加速器,可以提供高達67 TOPS的性能,爲AI內容創作提供出色的吞吐量,能夠爲人工智能應用在集顯上運行提供更好的性能。

總結來說,全新的Xe集顯加上軟件優化,與上一代相比圖形性能提升超過50%,同時在人工智能的計算方面,有着3.5倍的提高。

除此之外,Lunar Lake也提供了非常好的視覺體驗,全新設計了顯示和媒體部分。媒體引擎增加了H.266,也就是VCC(多功能視頻編碼),VVC的優勢在於降低比特率並保持同等畫質,從而減少文件大小和傳輸壓力,可自適應分辨率碼率,更加靈活,還支持屏幕內容編碼流(SCC)、360度全景碼流。

顯示部分,全新顯示引擎可支持HDMI?2.1、DP?2.1、eDP?1.5,支持三路顯示,低功耗的eDP可以確保能效核高質量的顯示性能。Lunar Lake還提升了IPU影音處理單元的能力,主要提供了增強型的時域噪聲抑制,以及多幀靜態處理和改進的雙重曝光校錯HDR。

史上最強的AI算力 NPU性能提高3倍

既然是第二代AI PC,那麼NPU自然是另一個重點。Lunar Lake上的NPU被命名爲NPU 4.0,對,不是2.0而是4.0,因爲事實上2018年的神經網絡單元就是NPU的1.0版本。

全新的NPU 4與上一代的Meteor Lake相比,性能大幅提高3倍之多,算力達到48TOPS。英特爾表示Lunar Lake的NPU 4是“面向AI PC的最大的集成和專用AI加速器”。

NPU 4擁有12個用作向量計算的增強SHAVE?DSP,6個帶有緩存的神經計算引擎,支持原生激活功能和數據轉換以及大語言模型的嵌入標記化。新的NPU架構級效率提升,使得英特爾大規模人工智能戰略向前又跨出了一大步。

當然,AI計算不能只靠NPU,Lunar Lake的AI性能仍然聚合了GPU、CPU與NPU的多元算力,把所有的XPU加在一起,一共可以提供高達120 TOPS的算力。通過三種XPU不同的性能特點,Lunar Lake能夠使得所有的AI應用、用例得到完美的支持。這意味着更多參數的大模型可以在本地運行,更重負載的AI應用也能有更大的發揮空間。Lunar Lake將成爲AI PC更強大的基石。

首次使用封裝級內存 先進的平臺控制模塊

Lunar Lake還有另外一個極其重要的特性——封裝級內存。通過使用新的MoP(Memory on Package)封裝技術將內存芯片首次集成到SoC中,2顆內存容量最高32GB,支持LPDDR5x,每個芯片最高8.5GT/s(8500MHz),支持4個16bit通道。

由於內存就在SoC內部,因此縮短了內存走線,可以將Memory的物理功耗降低高達40%,這將帶來更好的功耗表現,同時對於AI和圖形性能的提升也有幫助。MOP還可以減少內存佔用面積,從而使得PCB的層數能夠降低,降低電路板設計的複雜性。

不過但要注意的是,使用MoP後,就不再支持外接內存,也就是筆記本的內存就是固定容量,不能再擴展了。

特別的是,Lunar Lake上首次引入了內存側的緩存區(Memory side cache),用來提升系統效率和系統性能。它有8MB的物理緩存,能夠把一些經常使用的數據緩存在這裡,以減少對DRAM的訪問,降低功耗,提高反應速度。同時,還可以緩存一些IO引擎,緩存區是高度可配置的,允許在引擎之間動態分配,適用於不同的應用。

Lunar Lake的平臺控制模塊(Platform Controller tile)也是一大亮點,集成了PCIe 5.0/4.0控制器、雷電4控制器、USB控制器、Wi-Fi與藍牙控制器、安全引擎等,重點在連接性方面進行了提升。Lunar?Lake提供最多4條PCIe 5.0、4條PCIe?4.0總線通道,支持Wi-Fi 7(5G Gig),支持藍牙5.4,支持雷電4及雷電共享技術。計算模塊與平臺控制模塊通過可擴展第二代交叉總線以及D2D界面互聯,另外Lunar?Lake還集成4個電源控制器,可實現增強遙測,可動態調節電壓。Lunar Lake的電源管理架構也有了變化,獨立的PMIC與全新的能效核心、增強的英特爾硬件線程調度器、內存側緩存等一起,優化了能效,實現了整個SoC的既定設計目標。

變革之後是更大的變革 一切皆可再超越

去年發佈的英特爾Meteor Lake平臺,無論是技術層面,還是AI層面,都足以在英特爾的歷史中成爲濃墨重彩的一頁,只是沒想到,僅僅半年之後,英特爾就開始革自己的命,創新之上在創新,全新的Lunar Lake變化之大令我們感到驚訝。

也許正如英特爾公司創始人戈登·摩爾先生在2015年說的那句話一樣,“WHATEVER HAS BEEN DONE, CAN BE OUTDONE”,超越永無止境,AI時代,一切纔剛剛開始。

據悉,Lunar Lake目前已經進入晶圓和芯片量產階段,將在第三季度正式發佈。Lunar Lake將爲來自20家OEM的80多款AI PC提供動力。英特爾預計在今年交付超過4000萬片英特爾酷睿Ultra處理器。

當下,對於英特爾來說,還有另外一個最重要的事情就是持續加強與操作系統、ISV廠商、大模型廠商以及開發者們的合作,繼續推動AI PC的生態建設,確保大模型以及軟件能夠在英特爾的GPU和NPU上有更深層的優化,以帶給用戶更好的體驗。畢竟AI PC這個賽道上,AMD、高通都也在發力,千帆競發,誰能勇立潮頭?我們拭目以待!