為了解決從用戶端系統到高性能伺服器的廣泛應用所面臨的性能和功耗挑戰,JEDEC固態技術協會於2020年7月正式發佈了下一代主流記憶體標準DDR5 SDRAM的最終規範(JESD79-5),為全球電腦記憶體技術拉開了新時代的序幕。
JEDEC將DDR5描述為一種「具備革命意義」的記憶體架構,認為它的出現標示整個產業即將向DDR5伺服器雙列直插式記憶體模組(DIMM)過渡。
DDR5的速度比已經「超級快」的DDR4還要快。與DDR4記憶體的3.2Gbps最高傳輸速率相比,全新DDR5記憶體則高達8.4Gbps。此外,DDR5也改善了DIMM的工作電壓,將供電電壓從DDR4的1.2V降至1.1V,從而進一步提升了記憶體的能效表現。兩者之間的性能、容量和功耗等指標的具體比較見表1。
表1:DDR5與DDR4 DIMMs比較。
DRAM晶片密度方面,DDR4在單裸片封裝(SDP)模式下僅支援最高16Gb的DRAM容量,而DDR5記憶體標準將這一數字提高到了64Gb。這意味著,DDR5 DIMM在SDP模式下的最高容量可達256GB,是DDR4 64Gb最大容量的4倍。同時,DDR5還支援片上錯誤更正碼、錯誤透明模式、封裝後修復和讀寫CRC校驗等功能,並支援最高40個單元的堆疊,從而可使其有效記憶體容量達到2TB。
在設計上,DDR5記憶體保持與DDR4相同的288個引腳數,不過定義不同,無法相容DDR4插槽。DDR5 DIMM採用了彼此獨立的40位元寬雙通道設計(32個資料位元,8個錯誤更正碼位元),每個通道的突發長度從8位元組(BL8)翻倍到16位元組(BL16)。所以儘管資料位元仍然是64位元,但併發能力的提高使得記憶體存取效率得到了提升,而且兩個通道共用寄存時脈驅動器,每側可提供四個輸出時脈,能夠最佳化訊號完整性。
此外,DDR5還帶來了一種名為「同一區塊刷新」(SAME-BANK Refresh)的新特性。這一命令允許對每一組區塊中的單獨區塊進行刷新,而讓其他區塊保持打開狀態,以繼續正常操作。測試資料顯示,單列DDR5模組與DDR4雙列模組以3,200MT/s的速度進行比較時,前者性能可以提升1.28倍,在4,800MT/s的入門級數據速率下,DDR5性能提升了高達1.87倍。
市調機構Omdia分析指出,對DDR5的市場需求從2020年就開始逐步顯現,到2022年,DDR5預計將佔據整個DRAM市場的10%,2024年則將進一步擴大至43%;Yole Group則預測稱,DDR5的廣泛採用應該會從2022年的伺服器市場開始,2023年,手機、筆記型電腦和PC等主流市場也將開始廣泛採用DDR5,出貨量明顯將會超過DDR4,屆時兩種技術間將完成快速過渡。
與DDR2、3和4的升級演進重點主要集中在如何降低功耗上,行動和終端應用在於其主要推動力不同,DDR5的主要推動因素是因為隨著CPU核心數量和運算性能的持續增加,記憶體頻寬和容量也必須成比例地擴展。
例如,2000~2019年,記憶體頻寬從約1GB/s迅速提升至200GB/s,但與此同時,一個系統中處理器核心數量也從早期的單核心、雙核心,增加到如今的60個以上。在這樣一個超多核心處理器的系統中,分攤到每個核心上的可用頻寬嚴重不足。
推動DDR5前進的其他因素,還包括:處理器和記憶體希望擁有相同的記憶體讀取細微性(64位元組快取記憶體行);相同或更好的可靠性、可用性和可服務性功能,例如必須支援單錯誤校正和雙錯誤檢測(single error correction/double error detection);保持在冷卻功率範圍內(~15W/DIMM),並控制好啟動和記憶體訓練的時間,以免影響預期啟動時間。
資料中心、PC與平板電腦和邊緣運算,被視作DDR5最有希望廣泛普及的三大領域。優先順序方面,業界普遍認為DDR5將緊隨DDR4的步伐,率先導入資料中心而不是PC領域,以應對運算密集型的工作負載。考慮到PC消費者對整機價格敏感度極高,且DDR5初期推出的價格與DDR4相比存在較高溢價,所以普及速度會相對較慢。
從目前的實際情況來看,DDR4仍然保持著強勁的態勢,DDR5還處於早期的量產爬坡階段,預計到2023年底DDR5的出貨量才會超過DDR4。在PC市場,英特爾(Intel) Alder Lake處理器已經搭配了DDR5記憶體,AMD也宣佈會在今年秋天支持DDR5;在伺服器市場,第一個DDR5伺服器已經出樣,預計會在接下來的3~6個月內實現早期量產。這樣看來,先前盛傳的「2022年將能夠真正全面進入DDR5時代」的說法看來有些過於激進——畢竟2022年底已近,而支援DDR5的處理器平台仍比較有限。
DRAM市場的幾大參與者包括了三星(Samsung)、美光(Micron)、SK海力士(SK Hynix)、南亞科技(Nanya)、力積電(PSMC)等,圖1展示了該領域主要市場參與者的技術演進方向。簡單而言,三星、美光與SK海力士針對DDR4、DDR5和LPDDR5應用,已經以15nm和14nm等級的單元設計規則發佈了D1z和D1α節點的產品;三星是最早在DRAM上採用極紫外光(EUV)微影技術的供應商,將其應用於D1x DDR4 DRAM模組和D1z LPDDR5規模量產。
圖1:主流供應商的DRAM製程節點演進。
(來源:TechInsights)
HBM3
隨著人工智慧(AI)和機器學習(ML)領域需求的快速發展,記憶體產品設計的複雜性正在快速上升,並對頻寬提出了更高的要求,高頻寬記憶體(HBM)成為繞過DRAM傳統I/O增強模式演進的另一個優秀方案。
從最開始資料傳輸速率約為1Gbps左右的HBM1,到2016年推出的最高資料傳輸速率為2Gbps的HBM2,再到2018年推出的最高資料傳輸速率3.6Gbps的HBM2E。
而在三星發佈的最新藍圖中,其HBM3技術已於今年開始量產,介面傳輸速率可達6.4Gbps,相比上一代提升1.8倍,從而實現單晶片介面頻寬819GB/s,如果使用6層堆疊可以實現4.8TB/s的總頻寬。到2024年,預計將實現介面速度高達7.2Gbps的HBM3P,這一代資料傳輸率進一步提升10%,從而將堆疊的總頻寬提升到5TB/s以上。
除了AI/ML訓練市場之外,HBM3還可用於5G、高效能運算及其他與資料中心相關的應用場景、繪圖應用 和網路應用。其發展很大程度上是由不斷上升的頻寬需求驅動,而對頻寬的需求幾乎沒有上限。換句話說,目前來看HBM的發展可能不會遇到障礙。但相較於GDDR DRAM動輒16/18Gbps的速率,HBM3的速率仍然存在差距,而限制HBM發展的原因則主要來自兩方面:一是中介層,二是成本。
先進的2.5D/3D製造是造成成本偏高的原因。眾所周知,HBM技術與其他技術最大的不同,就是採用了3D堆疊技術。HBM2E、DDR、GDDR,HBM3架構的基本單元同樣是基於DRAM,但不同於其他產品將DDR進行平鋪的做法,HBM選擇了3D堆疊,其直接結果就是介面變得更寬。比如DDR的介面位元寬只有64位元,而HBM透過DRAM堆疊的方式可以將位元寬提升到1,024位元,這就是HBM與其他競爭技術相比最大的差異。但這對成本比較敏感的客戶或應用來說,使用HBM的門檻就被大幅提升了。
系統級創新將成為更大記憶體系統的關鍵
為了解決儲存容量的需求,除了晶片級解決方案之外,系統級解決方案也是重要方向之一,使用CXL技術做記憶體擴展就極具代表性。以資料中心為例,圖2從左至右為依次展示了資料中心正在及將要經歷的三次重要轉型。
圖2:資料中心架構不斷演進。
首先,大約在2021年底,伺服器記憶體將會開始向DDR5轉型。與前代產品DDR4相比,DDR5整體架構較為一致,但在容量、能效等方面實現了大幅提升,具備現代化資料中心所必需的特性。
其次,預計到2022年,資料中心將會透過串行鏈路實現記憶體子系統的擴展,也就是CXL。利用CXL,就可以在傳統插拔式記憶體條的基礎之上,為伺服器及資料中心增加全新的記憶體擴展方式。比傳統插拔記憶體條的方式,CXL可以進一步提高現有資料中心記憶體的容量和頻寬,也被稱作「容量與頻寬的雙擴展」。
最後,資料中心分解化。CXL的使用將讓業界更多關注資源池化和資源本身的功能效應,更高效率地分配資源。透過分解化的全新資料中心架構,運算、記憶體、儲存等資源將進一步池化,從而能夠依照工作負載的具體需求,將資源定向分配。使用完成之後,這些資源又將回歸到統一的資源池中,等待後續的工作負載進行重新分配。
資源「池化」可以將資源的利用率大幅度提高,這會為超大規模運算,特別是雲端服務帶來巨大的優勢,幫助大幅度降低總體擁有成本(TCO)。因此,2019年3月,英特爾宣佈聯合微軟(Microsoft)、阿里巴巴、思科(Cisco)、戴爾(Dell) EMC、Facebook、Google、惠普企業(HPE)和華為等公司,共同推出了一個全新的互連標準,取名為Compute Express Link (CXL),應用目標鎖定網際網路資料中心、通訊基礎設施、雲端運算與雲端服務等領域。
如前所述,作為一種開放的產業標準,CXL可在資料中心內的專用運算、記憶體、I/O和儲存元素之間提供高頻寬、低延遲的連接,以允許為給定的工作負載提供每個元素的最佳組合。
記憶體更加智慧化
在傳統運算設備廣泛採用的馮·諾紐曼架構(Von Neumann architecture)中,運算和儲存功能不但是分離的,而且更側重於運算。資料在處理器和記憶體之間不停的來回傳輸,消耗了約80%的時間和功耗,也就是熟知的「儲存牆」和「功耗牆」問題。
學術界為此想出了很多方法試圖改變這種狀況,如透過對DRAM的邏輯層和儲存層進行堆疊,實現近記憶體運算(Near Memory Compute),或者是最好能夠將儲存和運算有機地結合(記憶體顆粒本身的演算法嵌入),直接利用儲存單元進行運算,最大程度消除資料移轉所帶來的功耗開銷。
在這一背景下,更聚焦儲存的新型「記憶體內運算」(In-memory Computing)架構誕生。從目前趨勢來看,真正對「記憶體內運算」架構起決定性推動作用的,將是AI/物聯網(IoT)相關應用的加速實踐。
美光針對記憶體與運算架構的發展,曾提出過「三個階段」的看法:第一個階段是讓記憶體非常靠近邏輯運算,用大量的高頻寬資料匯流排把記憶體和運算處理器更緊密連結;第二個階段是在記憶體中進行運算處理。這個概念始於1994年,儘管實現量產在技術上存在不小的難度,軟體和邏輯也是分開的兩部分,但消除傳輸、延遲等問題,並且大幅提升效能;第三個階段則是神經形態(neuromorphic)運算,使用記憶體架構本身做運算。
以三星為例,其當前主要的記憶體內運算技術稱為HBM-PIM,原理是在HBM記憶體中直接整合運算單元;另一種技術方案是在DRAM旁邊直接整合加速器邏輯,以降低存去記憶體的開銷,這樣的技術三星稱為AXDIMM (accelerator DIMM),預計2024~2025年完成開發。
總體而言,無論基於哪種儲存技術,在面對記憶體內運算時,其實都存在一定的挑戰。但隨著ML等應用對於記憶體存取提出進一步需求,以智慧化DRAM為代表的技術方向將成為改變記憶體市場格局和競爭力的重要手段。
本文同步刊登於《電子工程專輯》雜誌2022年11月號
The post 探索儲存技術新動向 appeared first on 電子工程專輯.