在半導體產業發展的這幾十年,「摩爾定律」可能是被提及次數最多的一個詞,沒有之一了——本文來細品「摩爾定律」這幾個字。雖然半導體產業整天把「摩爾定律」掛在嘴上,但你真的知道什麼是摩爾定律嗎?
摩爾定律真的是說每18個月,單位面積內的電晶體數量就翻倍嗎?比較有趣的是,上個月Nvidia GTC開發者大會上,該公司共同創辦人暨執行長黃仁勳在回答記者提問上提到兩次摩爾定律已經結束了;而幾天後的Intel Innovation大會上,Pat Gelsinger又說摩爾定律肯定還沒死。本文就以EE歷史課的方式來追溯「摩爾定律」究竟死了沒,以及其實質是什麼。
摩爾定律的一個實例
前一陣Semiwiki有作者撰文舉了個有趣的例子,本文也來用一用。這篇文章的作者Paul McWilliams說他入行是在1976年,當時DRAM領域比較熱門的產品是容量16Kb的Mostek MK4116。16Kb大小的DRAM記憶體,功耗(active state)大約是0.432W;受制於當時的製程水準,每平方英吋PCB只能塞進1.5個元件;這顆MK4116當時的售價是10美元。
如果說摩爾定律不存在,想像一下,現在PC裡面常見的16GB記憶體大概是怎樣的規模。即便不算通貨膨脹,那麼以1975年的成本等比放大,則16GB的記憶體應該需要8,000萬美元,而且佔板面積大概是3.7萬平方英呎,耗電是3,500,000W。如果依照每千瓦時的電費是0.1美元計,則每個月在這塊記憶體的用電費用就會達到25萬美元。
看樣子如果沒有摩爾定律,那就只有億萬富翁才買得起16GB記憶體了——實際上現在京東買個16GB DDR4記憶體條只要人民幣300~400元。而且請注意這個演算法只是等比擴大了儲存單元,沒有包括其他的各種主動、被動元件。不知道1975年的人有沒有想過,到2022年,16GB DRAM是多麼唾手可得。
如果加上通貨膨脹的考量,計入摩爾定律,則僅針對這一例來看DRAM成本下降了99.9999995%,功耗下降了99.9999993%;每bit成本下降的數量級實際有1,000萬倍——如果是看數文書處理器類型的晶片,則經濟效益自Intel 4004 (1971年)到今天提升了超過10億倍。這個例子聽起來令人相當震撼,再一想今天很多企業在說未來1,000倍性能提升,好像根本也不算什麼。
不過,也許大家更在意的是近些年摩爾定律是否已經「死」了,而不是從1975年算起的問題。前一陣子舉辦的Nvidia GTC,Nvidia提出2018年Turing架構最高階的顯卡晶片用了186億個電晶體,die size是754mm²;而2020年Ampere架構晶片用了283億電晶體,die size為628.4mm²;今年剛剛發佈的Ada Lovelace架構晶片電晶體數量是763億,die size是608.5mm²。
這3代晶片應用的製程分別是台積電(TSMC) 12nm、三星(Samsung) 8nm、台積電4nm,看起來好像摩爾定律依舊活得還不錯——即便用電晶體數量除以面積,得到的數字還算是可觀。那麼摩爾定律沒死嗎?
摩爾定律的出處
首先得肯定,摩爾定律對於電子科技產業整體的貢獻和意義,要不然就只有億萬富翁才買得起16GB記憶體,而且順豐送貨員還搬不動那麼大的東西。不過要回答摩爾定律死或沒死的問題,首先還是要了解究竟什麼是摩爾定律。
1965年,還是快捷半導體(Fairchild Semiconductor,2016年已被安森美併購)研發總監Gordon Moore——也就是後來英特爾(Intel)的創始人之一,受邀《Electronics》雜誌寫了篇比較短的文章,主要內容是就未來10+年的半導體產業趨勢預測。這篇文章在Intel官網現在也仍然能看得到,題為「Cramming more components onto integrated circuits」(把更多元件塞進IC)。
1968年的Gordon Moore (左)與Robert Noyce。
(來源:Intel)
有關「摩爾定律」的全貌,都可以從這篇原始文章裡得到解答。當時Gordon Moore在文章中預測,依照這個論斷,則到1975年(也就是1965年的未來10年)單個1/4英吋半導體產品上將有可能容納6.5萬元件(components)——注意是元件,元件包括有電晶體、電阻器、二極體、電容器。Gordon Moore還說,以最小成本能夠達到的複雜度,每年都會有大約2個數量級的成長。也就是說,時間和複雜度是對數線性(log-linear)關係。
實際在1975年的IEEE國際電子元件大會上,Gordon Moore對這一預測做了重新修正,他預測大約到1980年半導體複雜度每年還會持續以兩倍速度提升,而在此之後會漸漸縮減到每兩年兩倍速的程度。其實在此之前「摩爾定律」這個詞都還沒有真正流行。很快,加州理工學院教授Carver Mead對「摩爾定律」這個詞做了推廣,然後摩爾定律就在半導體產業開始全面風靡——Intel的競爭對手為了宣傳自家產品在性能上的提升也開始頻繁引用「摩爾定律」一詞。
Gordon Moore本人後續在很多場合接受過不少媒體採訪,都被問到了「摩爾定律」。有一回他本人開玩笑說:「摩爾定律其實違反了墨菲定律。」畢竟墨菲定律是說事情總會往更糟的方向發展。現在我們當然知道,摩爾定律被推而廣之地作為IC晶片之上電晶體數量成長速度的一個現象表達,屬於某種趨勢的觀察和推論,而不是什麼自然界的物理法則。
早在2005年4月,Gordon Moore就在某次採訪中回覆說這個「定律」無法無限持續。當時他也提到了電晶體最終會在原子等級達到某種最小化的限制:「從(電晶體)尺寸來看,你會發現我們已經接近原子等級的尺寸,這會成為根本性障礙。不過在遇到障礙之前,至少還會要2、3代,但是我們能夠看得到的未來。在遭遇這一根本性限制之前,我們還有10~20年。」
大部分產業預測專家,包括Gordon Moore本人,都預計摩爾定律將於2025年前後終結——維基百科有相關的資料可參考。不過如果以Intel的PC處理器為參考,則起碼在14nm之前,摩爾定律都是基本成立的,具體的資料可以看Paul McWilliams的總結,1971年Intel 4004的電晶體密度是每平方毫米187.5個電晶體;2015年的Core i7處理器大約是1428.57萬電晶體/平方毫米:這44年間,電晶體密度提高了76,190倍。
其實到台積電N5製程應用於蘋果(Apple) M1 Max,達成的電晶體密度約1.319億電晶體/平方毫米都仍然在循著摩爾定律的軌跡。
(備註:這裡計算電晶體密度的方法僅是整個晶片的電晶體數量÷die size,這種計算方法無法用於表達某一代製程節點的元件密度。)
其他延伸定律
基於對原文的研究,大概可以說當代的「摩爾定律」屬於對原表達的演繹。值得一提的是,產業對於摩爾定律常有個錯誤的援引,就是將Gordon Moore此前所說的時間改寫成「18個月」,就是每18個月單位面積的電晶體(或元件)數量翻倍。
有關「18個月」的誤傳,同樣是有出處可循。1975年Intel的David House說摩爾定律修正為每18個月電晶體數量翻倍,同時功耗不會增加。不管是幾個月,摩爾定律的意義已經不止於一個現象的解讀,還在很長一段時間內都成為整個半導體產業的長期規劃指導原則。
不過作為產業指導原則的結束是在2000年之際,Dennard scaling定律的終結。Dennard scaling定律定律的名氣雖然沒有摩爾定律那麼大,但也算是同期大量「定律」的重要一員。這一定律表達的是隨著MOS管變小,功率密度保持不變;換句話說晶片單位面積內的功耗恆定。也就是說,隨摩爾定律達成的晶片性能成長,在相同面積內不會帶來功耗的增加。
但公認的,在2000年以後Dennard scaling定律就結束了——其中一部分原因應該是隨著元件尺寸縮小後漏電流的增加。即便摩爾定律在此之後仍在持續,但諸多市場從業者從此之後從以摩爾定律為指導,轉向了以應用為導向。在原本描述CPU性能提升的「摩爾定律」的指導下,CPU性能的提升幅度也並不與電晶體數量成長呈線性關係;在Dennard scaling定律結束後,可達成的實際性能提升幅度就更是如此了。
1995年Gordon Moore還發表一篇文章,已經不僅把「定律」或「推論」局限在電晶體數量的成長問題上了。在此之後似乎所有相關與半導體產業,存在一定對數或接近關係的現象都和摩爾定律掛上鉤,期間從網路、通訊、IT,甚至到生物製藥領域都衍生出了各種各樣的「定律」,包括Eroom’s law——Moore反過來寫,還有Edholm’s law說通訊網路頻寬每18個月翻倍等等。
摩爾第二定律與摩爾定律的經濟基礎
作為一個現象——和對現象的表達,而非規律,這種現象能持續這麼多年必然是有背後的推動力。摩爾定律本身暗含了一個前提或前置條件,就是半導體製造成本的不斷下降。例如以單個電晶體造價為依據,若隨技術進步,這個價格必須呈一定的下降趨勢,才有推動企業不斷採用新技術的動力——因為成本下降了,意味著能賺到更多的錢。
就好像本文提到的例子,如果摩爾定律的持續只是帶來16GB DRAM的體積大幅縮小,但成本還是8,000萬美元,那就是不可持續,對企業而言沒有驅動力。一般討論成本,可以把成本切分為固定成本(CapEx)和可變成本(Marginal)。固定成本可以理解為一些生產資料、基礎設施的一次性投入,比如說晶片製造所需的設備、廠房建設之類的投入;當然如果囊括範圍更大,則晶片設計也作為固定成本算在其中。這種成本在先期會非常巨大,但一旦投入完成,則會隨著生產規模的擴大逐漸回本。而可變成本則是指在每次生產時都需要投入的新成本。
通常半導體製造產業的大頭在固定成本上,隨著產量起來,獲利將會越來越高。而且半導體產業還有個比較厲害的特性,即基本的製造原材料——矽供應幾乎是無限的,則產量理論上要多少就能有多少。
當然我們知道隨技術難度增加,這方面的特性也會有一些變化。一方面是對於先進製程而言,固定成本每年的增幅相當駭人。2017年美國半導體產業協會的預估是7nm/10nm製程節點建廠,配套製造設備需要投入70億美元。在過去25年裡,新節點成本每年推升13%。
但這個資料這兩年還可以再進一步改寫。因為台積電今年的CapEx成本投入就預計有440億美元(雖然並不都是先進製程投入),則可見製程演進有多花錢。Intel過去10+年的固定成本與可變成本之比,已經變得非常驚人。
在本文探討的「摩爾定律」下,成本的快速提升帶來兩個問題。其一是因為成本攀升速度都比市場成長率還快,大量市場參與者就不得不退出這一市場;其二,作為推進摩爾定律的驅動力,如果某種單位的造價不能依照一定的比例下降,那麼摩爾定律本身必然就不可持續,因為其存在基礎都沒有了。
維基百科有個「摩爾第二定律」(Moore’s second law),或者稱Rock’s law。這個「定律」的出處不大可考,不過依照維琪百科的說法,摩爾定律表達的是半導體晶片晶圓製造廠的成本每4年翻倍。這是個反摩爾定律,或者至少在經濟驅動力上與摩爾定律部分相違背的「定律」。
不管這個定律是不是真的,驅動摩爾定律超過50年的經濟基礎接近喪失都是事實。前兩年有不少研究都在探討從單個電晶體造價的角度來看成本問題,有的說法是10nm以後,單個電晶體成本就已經不再下降;上圖是Marvell在前兩年的Investor Day上提出,每億閘成本的變化趨勢,是在20nm之後就趨於平穩,甚至有小幅躥升。
當然單晶體管造價這個維度可能仍然無法佐證摩爾定律經濟驅動力的消失。但只要摩爾第二定律成立,則總有一天會達成驅動力的不再。且成本的增加並不單純體現在單晶體管或固定數量邏輯閘的造價上,還在大die加上良率後的成本上。看起來2025年摩爾定律的終結,算是比較可信的預測。
摩爾定律將結束的徵兆
有關摩爾定律終結的「預測」似乎年年都有,最早是1985年Intel 80386問世,華爾街日報的文章就說摩爾定律要死了。
以下列幾條摩爾定律趨於終結的徵兆。其實前面談摩爾定律驅動力的不再,就已經是強有力佐證了。不過其他徵兆還包括:
第一,從190nm以後,電晶體元件的實際三圍尺寸或者間距,就和這個nm數沒有關係。例如現在說的5nm,就只是一個稱謂。對電晶體而言,並不存在哪個部位真的是5nm。而類似10nm、7nm、5nm這些數字,單純只是在技術演進時,將數位乘以0.7——因為對於一個正方形而言,邊長變成0.7倍,就意味著面積剛好差不多縮減1倍——也就符合摩爾定律了。或者說現在聽到的這些製程數字,只是晶圓代工廠為了讓你以為製程還在跟隨摩爾定律,而硬是乘以0.7得到,但實際不存在任何意義的數字。
第二,近代先進製程,實現電晶體密度的提升,有大量技術手段不再是元件層面的pitch scaling,而是單元(cell)層面的scaling booster或DTCO。其實單元層面的調佳,可以理解為最佳化電晶體的擺放方式。這類方案帶來的電晶體密度提升的確還不錯,但它從側面印證了先進製程,要在元件層面做pitch scaling已經難上加難。
相似的,技術層面可反推的是,當代先進封裝技術成為一個新的技術重心,就不難發現製程進步帶來的收益正在減少。
第三,加速運算和專用處理器/單元用得越來越多。比如蘋果晶片在瘋狂堆砌媒體引擎專用單元;Intel的Core/Xeon處理器這兩年正在往裡加各種專用單元,包括強化AI運算的CPU後端,還有整顆SoC上出現AI專用單元、影像處理器單元。
這一點表現最誇張的,應該是Nvidia GPU。資料中心GPU都在走DSA之路(如專門的FP8 Transformer引擎);而GPU,不光有專門用作光線追蹤運算的RT core、用於AI運算的Tensor core——現在RT core裡還在堆更專用的硬體單元。今年更新的Ada Lovelace,又在RT core裡至少加了兩個新單元用於加速光線追蹤技術。
更有趣的是,Nvidia認為單純的圖形渲染速度太慢,還靠AI單元來生成更多的畫素和影格——這都已經脫離圖形範疇,而借助於電腦視覺技術加速了。GPU本來就已經是繪圖運算加速器,現在這個加速器還在依賴更多的二級甚至三級加速器來加速運算:運算力不足以支撐的部分,不惜讓AI技術來補強。
另外,在晶片設計層面增加越來越多的專用硬體,無非就是因為摩爾定律越來越疲軟。
難以維繫產業發展的摩爾定律
不過這也引出了另一個議題,就是現在人類社會的運算力需求已經遠超摩爾定律能夠提供的水準了。換句話說就算摩爾定律還能延續,現在的運算力需求也遠超單位面積電晶體數量翻倍可達成的效果。
如仰賴電晶體密度提升,2018~2022年Nvidia GPU也不過實現了同系列晶片的電晶體用量成長4倍。但具體到光線追蹤這一個應用上,Nvidia或者說市場期望達成的就是16倍甚至更高的性能提升。這額外的倍數靠摩爾定律搞不定,更不用說AI訓練應用運算力需求每3.5個月就翻倍。
所以電子工程和電腦科學正在變著技巧進行架構調整,今天軟體的某個中介軟體最佳化一下提升1倍性能,明天硬體內部要做調度最佳化或增加專用單元,再提升1倍性能。現在受惠於先進製程的那些晶片設計公司,即便每年宣稱性能提升x倍,這其中的90%可能都需要依賴開發者改程式碼才能達成。自下而上的架構最佳化,全堆疊的各種調整會成為將來電子科技發展的主軸。
不過面對摩爾定律終結也並不需要太過悲觀。電子科技從沙子到最上層的軟體應用,中間有那麼多的環節都有最佳化的餘地,依然能夠在未來很長時間裡帶來性能和能效上千倍的提升——過去1~2年裡,各層級市場參與者似乎都提出過這樣的論斷。
現在已知持續提升性能和能效,讓電子元件成本下降的技術至少包括了:DSA——也就是專用架構或專用計算,這個分支下最為全面開花的技術大概是AI;各層級的架構最佳化——如製造層面的電晶體結構最佳化GAAFET/CFET、單元層面的nMOS/pMOS結構3D化,封裝層面的結構chiplet化和3D化,當然還有更底層材料層面的最佳化;甚至包括計算範式的徹底顛覆,例如將原本的記憶體用作運算單元,以打破儲存牆限制。
從更系統的層面來考慮最佳化方案,或者以上層應用為驅動來定制系統結構,其中也包括更上層軟體的各種最佳化——從全堆疊和更系統的角度來解決問題,也是諸多電子產業市場參與者的共識,部分EDA廠商已在這麼宣導了。
本文原刊登於EE Times China網站
The post 回顧走過半個世紀的摩爾定律 appeared first on 電子工程專輯.