星期四, 24 4 月, 2025
23.6 C
Taipei

兼容並蓄、持續壯大的CXL生態系

開放性高速互連通訊協議CXL (Compute Express Link)可說是運算領域進展最快的標準之一,才問世三年多一點,就已經公佈了第三代規格;儘管有許多供應商已經在開發CXL產品,要建置其生態系統還有許多工作要做。

在2022年8月初於美國矽谷召開的年度快閃記憶體高峰會(Flash Memory Summit)上,有一場探討CXL最新功能的論壇,眾多供應商分享了他們對生態系統所做的貢獻。該論壇也成為宣佈CXL組織下相關標準進一步整併訊息的平台;該組織最近已成為一個正式的產業聯盟。

而無論那些廠商處於生態系統中的哪一個位置,論壇中反覆出現的主題是,CXL規格是革命性而非進化型,不像是PCI Express (PCIe)等穩定發展了十多年的其他協議。

3.0版的CXL添加了先進的交換(switching)和結構(fabric)功能,還有高效率的點對點(peer-to-peer)通訊,以及橫跨多個運算域的細緻(fine-grained)資源分享功能。整體而言,新版規格支援更多資源分解(disaggregation),這將對資料中心產生重大影響。

2019年3月問世的CXL是一種工業標準互連規格,利用主機處理器與加速器、緩衝記憶體和I/O介面等元件之間的高頻寬、低延遲連結,提供一致性(coherency)和記憶體語義(memory semantics)。它橫跨標準PCIe執行(以PCIe為傳輸介面實體層),使用一個靈活的處理器連接埠,可自動協商為標準PCIe交易處理協議或替代性CXL交易處理協定。

越來越明顯的是,CXL互連將對資料中心產生重大影響,該規格致力於追趕呈指數成長、只透過增加更多記憶體已經不足以應付的資料和運算需求。

CXL聯盟主席Siamak Tavallaei接受《EE Times》採訪時表示,隨著CPU核心數量增加,以及對更多記憶體頻寬的需求,記憶體本身需要更高效率;而CXL能為滿足資料中心和大型雲端運算環境需求的基礎建設,提供必要的方法。

Tavallaei透露,從CXL 2.0的開發工作伊始,聯盟內的不同團隊已經解決了很多舊的使用案例問題,並開發了新的案例來利用該協議的優勢,進而催生最新版本規格中的許多功能。他補充指出,CXL現階段已經發展到不只是Power Point簡報或規格書的程度,「以矽晶片為基礎的解決方案已經在開與驗證的過程。」

 

圖1:CXL交易處理層由一條鏈路上的三個動態多工協議組成。

(來源:CXL聯盟)

 

從記憶體池化到共用

CXL規格的一個重要價值主張,是作為一種通用、標準的資料移動方式;其他規格也都做得不錯,但都是專有的形式。對此Tavallaei指出,即使在CXL 3.0中添加了新功能,向後相容仍然相當重要。在高層方面,CXL為多連接埠裝置提供了一種方法:記憶體池化(memory pooling)是CXL 2.0的組成部分之一,CXL 3.0則導入了結構的概念。

CXL的第一代是為點對點連接而設計,迄今為止的演進則讓功能「扇開」(fanning out),元件交換器和處理器的形式更加複雜。安全性在CXL 2.0變得更加重要,添加了IDE作為連結的加密方法。而Tavallaei也透露,所有這些趨勢促使聯盟內部成立了多個工作小組,以催生CXL 3.0的新功能。

在CXL 2.0中,記憶體池不允許資料從一個虛擬階層(hierarchy)移動到另一個階層,但在CXL 3.0,連接交換機的多個元件可以相互對話:交換機可以使用結構連接埠級聯(cascaded)和互連,從而創建一個更大的結構,用於互連一整套裝置,包括加速器、記憶體和儲存元件。

但即使CXL 3.0已經宣佈許多新功能,大多數供應商現在才把CXL 2.0的產品推出去,並能熟練掌握像是池化等功能。Arm細分市場行銷總監Parag Beeraka就表示,記憶體池化是CXL實現新一代資料中心架構、因應需要更多記憶體而持續提高之成本的有效方法。

 

圖2:CXL 2.0在CXL 1.1的基礎上強化了扇出支援和各種額外的功能,以交換機為關鍵,在單個層中支援多個主機和元件。

(來源:CXL聯盟)

 

「DRAM是資料中心中支出最高的項目之一,因此任何能夠提高現有硬體效率的東西,都能間接有助於降低整體擁有成本;」Beeraka指出,隨著超大規模資料中心的工作負載變得更加多樣化,也需要有更多的可配置性,「人們不會想要為特定工作負載打造專用機器,而是能為不同的工作負載配置通用伺服器。」

就像是NAND價格相對較昂貴時,仍有少量「熱門」資料值得用快閃記憶體來儲存,CXL也為將資料路由至不同的記憶體和儲存資源開了一扇門。「人們可以根據工作負載,對該用哪種正確的記憶體做出適當選擇;」Beeraka表示,藉由CXL,更多記憶體可以被添加至伺服器並池化,「池化解決方案將真正有助於實現更高的記憶體容量。」

分層與分解助力提升資料中心效率

將記憶體分階層(tiering)的概念,與英特爾(Intel)將Optane定位為DRAM和快閃記憶體之間的一個階層的概念並無不同。即使英特爾和美光(Micon)都決定放棄開發3D Xpoint技術,轉向聚焦於CXL,仍顯示新增加的分階層選項有多麼重要。

Beeraka指出,近記憶體的效率正在提高,從資料中心的角度來看,支援CXL的記憶體分解是可行的,DRAM的成本會隨著記憶體的擴充略為下降。AMD的雲端運算業務開發總監Sid Karkare則表示,池化和分解功能令人興奮的另一個好處是,可以盡可能最佳化應用性能需求。

可以讓DDR4和DDR5 DRAM分階層,只在必要時才分配任務,就能減輕增加DDR5的成本負擔,還可以根據延遲性需求進行調整:某些應用或許可以處理更高的延遲。藉由池化,系統記憶體的可組合性也增加了。

CXL可以解決的另一個挑戰是記憶體擱淺(stranded memory)──也就是有些記憶體沒有以最佳方式連結特定伺服器。「如何根據需要分配記憶體,並在整體上降低資料中心的總資本支出?」Karkare表示,頁遷移(page migration)在分階層記憶體扮演要角,這可以透過軟體完成,也可以用硬體完成,「兩種方法都各有優缺點。」

有了軟體,應用程式就能更充分了解它何時性能會變慢。「如果用硬體來做性能會更好,」他指出,「我們看到這兩種方法都有在CXL生態系中被開發探索。」

美光則將CXL視為實現資料中心「柔韌性」(pliability)的關鍵,該公司資料中心業務資深行銷總監Ryan Baxter表示,「這可以歸結為伺服器組合,以及生態系統中客戶真正想要解決的問題類型;」一個很好的例子是人工智慧伺服器,以及它們從現在到2025年間該如何進展。

今日必須存取的記憶體和儲存元件容量,有了CXL可扮演更高性能的介面實現記憶體擴充。Baxter認為,對於支援即時應答等使用案例的應用程式,像是詐騙偵測與推薦引擎,如今的儲存技術還不夠快,「那意味著記憶體,也就是DRAM。」

然而,在CPU或伺服器中可以部署多少額外的記憶體通道,是有限制的。「這正是CXL能發揮作用的地方,我們相信CXL能夠實現顯著的、達到我們所需程度的平台柔韌性;」Baxter指出,不然得採用的方法就是堆疊DRAM,而且這種方法變得極其昂貴:「每gigabit的平均單價(ASP)呈現非線性增加。」

美光的客戶則正在尋求記憶體空間的「扁平化」,並倚重CXL作為記憶體通道。「業界正在推動一種新的異質架構,」Baxter透露,「CXL允許業者在正確的時間和正確的地點,做出正確的運算組合,以及正確的記憶體組合。」

海力士(SK Hynix)記憶體規劃副總裁Uksong Kang則表示,該公司亦將CXL視為有效利用運算、加速和記憶體資源的一個途徑,因為它允許記憶體頻寬和容量的擴充、記憶體媒介的差異化和控制的差異化,還可實現海力士的「記憶體即服務」(MaaS)。

除了透過CXL通道增加記憶體容量外,該協議還具有不挑記憶體、非確定性特點,在能添加的記憶體類型方面具備更大的彈性,Kang指出:「我們既可選用標準記憶體如DDR5,甚至可以根據需要客製化記憶體媒介;」擁有記憶體的選擇權,就可以在性能、容量和功耗設計方面進行權衡。

他也指出,擁有第二階層的記憶體,可以實現更多的控制差異化,並整合更多功能,如糾錯控制、安全功能、低功耗功能、加速或運算引擎;「利用本地運算,可以防止資料在CPU和記憶體之間來回轉移。」

本地運算提高了電源效率和性能,當基礎建設和生態系統為記憶體池化做好準備,就適合MaaS;Kang解釋,這是因為CXL支援以記憶體池的虛擬化,來分配記憶體容量,也支援建立一個可組合、可擴充的記憶體池設備機架,可根據需要在插入不同類型的記憶體媒介。

成長中的生態系仍面臨許多不確定性

Kang認為,產業界正處於生態系促成(ecosystem-enabling)階段,隨著市場擴大,多類型記憶體解決方案將取得商機;「即使我們知道CXL將在未來改變遊戲規則,該市場規模會有多大,仍有許多不確定因素。」而當然該生態系不只有記憶體,還包括其他關鍵零組件,如控制器和重定時器(retimer)。

以各家廠商情況來看,雖然美光宣佈聚焦於CXL,不再進一步開發3D Xpoint技術,該公司尚未正式發表任何一款CXL產品。三星(Samsung)首款CXL產品是DDR5 DRAM記憶體模組,鎖定資料密集型應用,如人工智慧和高效能運算,因為這些應用需要伺服器系統能夠大幅擴充記憶體容量和頻寬。

Rambus已經迅速推出了IP,透過整合控制器和PHY技術,助力CXL生態系的建立;其兩種技術分別來自對PLDA和AnalogX的收購,有效地彌補了該公司在伺服器記憶體介面晶片方面專業的不足。

而Astera Labs則在不久前宣佈,其Leo CXL憶體加速器平台,已經開始為客戶和戰略合作夥伴

提供預生產樣品。該平台旨在解決處理器記憶體頻寬瓶頸和容量限制,允許CPU存取和管理連接CXL的DRAM和永久性記憶體,從而更有效地利用集中的記憶體資源,對記憶體的存取也能在不降低性能的情況下得到擴充。

 

圖3:三星很早就推出CXL記憶體產品──DDR5 DRAM記憶體模組,期望在CXL真正獲得廣泛關注的同時,DDR5成為在頻寬、容量擴展、速度和可靠性,以及電源效率方面最具成本效益的解決方案。

(來源:CXL聯盟)

 

建構CXL生態系不只是與不同產品有關。CXL協議與PCIe緊密交織,CXL 1.0與32Gbps PCIe 5.0一致。Tavallaei表示,CXL的進一步發展將尋求與那些深耕PCIe規格的公司合作,後者的第七代標準已經在開發中,其資料速率將加倍。CXL聯盟也宣佈與JEDEC固態技術協會合作,成立一個開發DRAM和永久性記憶體的聯合工作小組,目的是減少重複工作。

另一個做著與CXL聯盟有大量重疊工作的團體是Gen-Z聯盟;2021年底,雙方已達成協議將Gen-Z規格和資產移交給CXL聯盟。Gen-Z早於CXL,使用記憶體語義通訊,試圖以最小的開支實現記憶體元件、處理器與加速器等不同零組件之間的資料轉移。

OpenCAPI標準也將被CXL合併,儘管它也比CXL早了好幾年。OpenCAPI是較早的快取一致性CPU互連標準之一,是IBM現有的協同加速器處理器介面(CAPI)技術延伸,該標準在聯盟的控制下已開放給整個產業界。

(參考原文:CXL Spec Grows, Absorbs Others to Collate Ecosystem,by Gary Hilson)

本文同步刊登於《電子工程專輯》雜誌2023年1月號

 

 

 

 

 

The post 兼容並蓄、持續壯大的CXL生態系 appeared first on 電子工程專輯.

更多新闻