今年6月,AMD發(fā)布了一款專(zhuān)門(mén)針對(duì)AI需求的最新款芯片:Instinct MI300。
MI300將CPU、GPU和內(nèi)存封裝在了一起,晶體管數(shù)量高達(dá)1460億個(gè),接近英偉達(dá)H100的兩倍。其搭載的HBM(高帶寬內(nèi)存)密度也達(dá)到了H100的2.4倍。也就是說(shuō),MI300在理論上可以運(yùn)行比H100更大的AI模型。
受益于AI訓(xùn)練的增長(zhǎng),GPU需求肉眼可見(jiàn)的從游戲市場(chǎng)向高性能計(jì)算領(lǐng)域傾斜,就連剛開(kāi)啟GPU產(chǎn)品線的英特爾,也迫不及待的PPT首發(fā)了面向高性能計(jì)算場(chǎng)景的Falcon Shores架構(gòu)芯片。
伴隨英偉達(dá)一路沖向萬(wàn)億美元市值,資本市場(chǎng)對(duì)GPU行業(yè)老二的期待值也達(dá)到了頂峰。今年以來(lái),AMD股價(jià)累計(jì)上漲已經(jīng)超過(guò)90%。
英特爾的Falcon Shores,預(yù)計(jì)2024年推出
然而MI300發(fā)布會(huì)結(jié)束,AMD股價(jià)下跌3.6%,反倒是英偉達(dá)上漲3.9%。資本市場(chǎng)表達(dá)好惡,向來(lái)是這么冷酷無(wú)情。
原因可能在于,AMD沒(méi)有在發(fā)布會(huì)中透露這款芯片的客戶,這也是市場(chǎng)對(duì)英偉達(dá)以外的AI芯片最大的擔(dān)心。
長(zhǎng)期以來(lái),AMD在GPU市場(chǎng)一直被英偉達(dá)按在地上反復(fù)摩擦,Instinct產(chǎn)品線其實(shí)已經(jīng)迭代了好幾年,但相比英偉達(dá)的連戰(zhàn)連捷,AMD在高性能計(jì)算領(lǐng)域的存在感一直比較稀薄。
AI訓(xùn)練打開(kāi)的市場(chǎng)空間,一度被市場(chǎng)視為AMD與英偉達(dá)拉進(jìn)距離的機(jī)會(huì),但事情似乎沒(méi)那么簡(jiǎn)單。
離不開(kāi)CPU,但離得開(kāi)英特爾
雖說(shuō)在AI訓(xùn)練上,更擅長(zhǎng)大規(guī)模并行計(jì)算的GPU承擔(dān)了大部分計(jì)算工作,而整個(gè)系統(tǒng)仍需要CPU進(jìn)行調(diào)度和統(tǒng)籌。也就是說(shuō),盡管GPU的需求量大幅度增加,但CPU仍是必需品。
作為一家同時(shí)擁有CPU和GPU設(shè)計(jì)能力的芯片公司,AMD被看好也不意外。更何況過(guò)去幾年,AMD在CPU市場(chǎng)連戰(zhàn)連捷。
AMD現(xiàn)任CEO蘇姿豐在2014年接手,時(shí)值推土機(jī)架構(gòu)性能孱弱,讓英特爾心安理得的擠牙膏。而在賣(mài)掉Imageon后,AMD和拒絕為蘋(píng)果設(shè)計(jì)iPhone芯片的英特爾一起,完美錯(cuò)過(guò)了智能手機(jī)的浪潮,公司一片風(fēng)雨飄搖。
面臨多條戰(zhàn)線的失血,蘇姿豐只能將有限的資源集中在核心的CPU業(yè)務(wù)上,從蘋(píng)果請(qǐng)回了架構(gòu)吉姆·凱勒,開(kāi)始Zen架構(gòu)處理器的研發(fā)。
2017年,Zen架構(gòu)處理器橫空出世,把擠牙膏上癮的英特爾打了個(gè)措手不及。2019年,Zen處理器更換為臺(tái)積電7nm工藝,此時(shí)英特爾10nm工藝姍姍來(lái)遲。
雖然英特爾還占據(jù)著大部分市場(chǎng)份額,但AMD的反攻速度實(shí)在太快,尤其是在服務(wù)器市場(chǎng),幾乎是從0殺到了接近20%的市占率。
2023年Q1,AMD的x86處理器市場(chǎng)份額達(dá)到了34.6%這一歷史峰值[2],這也是AMD市值超過(guò)英特爾的重要背景。
今年5月,全球超級(jí)計(jì)算機(jī)Top500強(qiáng)公布:前500強(qiáng)中,使用AMD CPU進(jìn)行驅(qū)動(dòng)的超算達(dá)到121臺(tái),使用英特爾CPU的超算則從2016年的454臺(tái)下降至360臺(tái),雖然看著不少,但其中很多是英特爾10年前的家底——至強(qiáng)(Xeon)處理器[3]。
但同一時(shí)期,AMD與英偉達(dá)差距也越來(lái)越大。
難以逾越的CUDA
英偉達(dá)不僅是一流的硬件公司,更是一流的軟件公司。
雖然在理論性能上,MI300的一些參數(shù)甚至領(lǐng)先于英偉達(dá),但市場(chǎng)對(duì)英偉達(dá)對(duì)手們最大的擔(dān)心往往在于,就算硬件性能可以跟英偉達(dá)比肩,但是軟件解決方案仍難以與英偉達(dá)的CUDA對(duì)抗。
2006年,英偉達(dá)推出了CUDA平臺(tái),讓開(kāi)發(fā)者能夠給予GPU進(jìn)行編程和開(kāi)發(fā),最終形成了一個(gè)龐大穩(wěn)固的生態(tài)。在推出CUDA之前,全球能用GPU進(jìn)行編程的不足100人,目前CUDA的使用者超過(guò)400萬(wàn)。
每一個(gè)成功的硬件公司背后,往往都有一個(gè)更強(qiáng)大的軟件團(tuán)隊(duì),蘋(píng)果和英偉達(dá)都是如此。即便是光刻機(jī)制造商ASML也不例外,他們的官方網(wǎng)站上有這樣一段話:
您可能將ASML視為一家硬件公司,但實(shí)際上我們擁有世界上最大、最具開(kāi)創(chuàng)性的軟件社區(qū)之一。如果沒(méi)有我們開(kāi)發(fā)的軟件,我們的客戶就不可能制造出10納米或更小的尺寸的芯片。
想要芯片真正在具體場(chǎng)景的滿足各種需求,就需要開(kāi)發(fā)者對(duì)硬件進(jìn)行編程以實(shí)現(xiàn)各種功能。如果說(shuō)硬件編程的過(guò)程相當(dāng)于進(jìn)行各種復(fù)雜計(jì)算,那么CUDA就是提供給使用者的一部計(jì)算器。
無(wú)論對(duì)英偉達(dá)的刀法多么懷恨在心,都不能否認(rèn)黃仁勛對(duì)通用計(jì)算和人工智能的超前押注。
AMD顯然深知軟件和生態(tài)的重要性,但對(duì)標(biāo)CUDA的ROCm在2016年推出時(shí),就已經(jīng)比英偉達(dá)晚了十年。
直到2023年4月,ROCm都僅支持Linux平臺(tái);而CUDA自問(wèn)世以來(lái),就提供Windows和Linux兩個(gè)版本,后期還為蘋(píng)果用戶增設(shè)Mac OS版本。
相比英偉達(dá)不遺余力的推廣和,AMD在生態(tài)建設(shè)上也顯得投入不足,據(jù)說(shuō)早年英偉達(dá)對(duì)項(xiàng)目的GPU試用申請(qǐng)幾乎是有求必應(yīng),動(dòng)不動(dòng)就去高校實(shí)驗(yàn)室發(fā)顯卡。深度學(xué)習(xí)大神杰夫·辛頓帶著學(xué)生訓(xùn)練AlexNet模型,就用了三塊GTX 580。
另外,AMD的軟件能力也令人不安——AMD在今年6月發(fā)布了一份EPYC 7002 “Rome”服務(wù)器芯片指南,承認(rèn)由于時(shí)鐘倒計(jì)時(shí)器存在 BUG,導(dǎo)致第二代EPYC芯片運(yùn)行1044天后,會(huì)出現(xiàn)內(nèi)核卡死。如果有服務(wù)器使用這款芯片,需要每隔2.93年重新啟動(dòng)一次。
原因也不難理解,直到推出ROCm的2016年,AMD甚至還沒(méi)擺脫虧損。在這期間,AMD只能把有限的資源都聚焦在CPU的研發(fā)上,無(wú)法為GPU部門(mén)投入太多資源,更不要說(shuō)ROCm的軟件團(tuán)隊(duì)了。
而當(dāng)AMD在CPU市場(chǎng)收復(fù)失地,希望依靠AI卷土重來(lái)時(shí),英偉達(dá)已經(jīng)慢慢補(bǔ)齊了短板。
英偉達(dá)的反攻
2020年9月,英偉達(dá)宣布準(zhǔn)備以400億美元的價(jià)格準(zhǔn)備收購(gòu)移動(dòng)CPU架構(gòu)商Arm,其背后意圖人盡皆知:一方面是整合移動(dòng)端資源,另一方面則是入局CPU。
正如前文所說(shuō),盡管AI時(shí)代需要更多的GPU,但CPU仍不可或缺。當(dāng)CPU與GPU共同在服務(wù)器中的工作時(shí),實(shí)際場(chǎng)景更像是一個(gè)大學(xué)生(CPU)帶領(lǐng)一群小學(xué)生(GPU)組隊(duì)完成各種任務(wù)。這個(gè)時(shí)候,配合就顯得尤為重要。
因此,英偉達(dá)之所以自己做CPU,并非完全因?yàn)橛⑻貭柣駻MD,而是從自身產(chǎn)品需求出發(fā),使CPU和GPU緊密耦合,以發(fā)揮最大性能。比如CPU和GPU中,需要用到盡可能相似技術(shù)的一致內(nèi)存,以保證數(shù)據(jù)之間的無(wú)縫共享[8]。
雖然收購(gòu)基本沒(méi)有成功的可能性,但英偉達(dá)依然按部就班的招兵買(mǎi)馬。2021年4月,黃仁勛在自家廚房里宣布,英偉達(dá)即將推出首款5nm制程工藝CPU Grace,基于Arm架構(gòu),面向超大型 AI 模型的和高性能計(jì)算。
緊接著就是具體工作的有序展開(kāi):英偉達(dá)首先選定了根據(jù)地以色列,那里有全球第三多的納斯達(dá)克上市公司(僅次于美國(guó)和中國(guó));然后對(duì)外招聘600名硬件工程師、軟件工程師和芯片設(shè)計(jì)師,搭建CPU研發(fā)團(tuán)隊(duì)[7]。
最后,英偉達(dá)挖來(lái)了英特爾在以色列的CPU架構(gòu)專(zhuān)家Rafi Marom,后者曾參與10nm制程的Tiger Lake和Alder lake芯片開(kāi)發(fā)工作。
在2022年3月的GTC大會(huì)上,英偉達(dá)對(duì)外宣布Grace CPU性能:擁有144個(gè)Arm內(nèi)核和1TB/s的內(nèi)存帶寬,性能較當(dāng)前最先進(jìn)的DGX A100搭載的雙CPU相比高1.5倍以上。
不過(guò),原本預(yù)計(jì)在今年上半年可以開(kāi)始供貨的Grace芯片,目前已推遲至下半年。
APU
InstinctMI300本質(zhì)上是一顆“APU”,這是AMD早在2009年提出的一個(gè)概念——將CPU和GPU集成在一起,使得二者高速互聯(lián),實(shí)現(xiàn)1+1>2的效果。
在2006年收購(gòu)了GPU公司ATI后,AMD成為了當(dāng)時(shí)唯一同時(shí)擁有CPU和GPU設(shè)計(jì)能力的芯片公司,而且在兩個(gè)市場(chǎng)都是行業(yè)老二——但壞消息是,市場(chǎng)主流玩家也就兩個(gè)。
在這種局面下,AMD希望借助APU打開(kāi)市場(chǎng)局面。2011年,第一代APU推出后,AMD持續(xù)宣傳APU是“x86架構(gòu)三十年來(lái)的最大革命”,并向投資者強(qiáng)調(diào),這款產(chǎn)品存在著“強(qiáng)勁且被壓抑”的需求。
市場(chǎng)最初也對(duì)APU概念充滿期待,結(jié)果2012年Q3財(cái)報(bào)出爐,AMD收入下滑25%,順便減記了1億美元的庫(kù)存——APU需求量并不高,芯片根本賣(mài)不出去[1]。緊接著,公司股價(jià)跌到1.86美元的歷史性低點(diǎn),蘇姿豐臨危受命,開(kāi)始掌舵風(fēng)雨飄搖中的AMD。
APU的優(yōu)勢(shì)在于,由于CPU和GPU集成在了一起,數(shù)據(jù)傳輸效率得到了大幅度提高。蘋(píng)果的M1 Ultra也采用了類(lèi)似的“把幾個(gè)小芯片拼成一塊大芯片”的思路,換來(lái)了更強(qiáng)的數(shù)據(jù)吞吐能力。
但在2009年,APU的理念顯得過(guò)于超前。
一方面,APU涉及芯片的先進(jìn)封裝技術(shù),在當(dāng)時(shí)既不成熟,成本也難以控制。另一方面,APU在需求高度多元化的消費(fèi)市場(chǎng)很難行得通。
比如10種型號(hào)的CPU和GPU,理論上有100種組合方案,這就導(dǎo)致做10種方案無(wú)法滿足市場(chǎng)需求,做100種方案難以收回生產(chǎn)成本。
因此在很長(zhǎng)一段時(shí)間里,APU只能在PS4游戲機(jī)這類(lèi)高度標(biāo)準(zhǔn)化的產(chǎn)品上才能找到市場(chǎng)。但深度學(xué)習(xí)的大爆發(fā)改變了這一點(diǎn)。
相比游戲和渲染,AI訓(xùn)練對(duì)算力和數(shù)據(jù)吞吐效率的需求成百上千倍的增加,目前針對(duì)AI市場(chǎng)推出的芯片產(chǎn)品,除了算力的堆砌,往往都采用3D堆疊和先進(jìn)封裝等方式,增加數(shù)據(jù)傳輸?shù)男?,這與APU的優(yōu)勢(shì)不謀而合。
英特爾尚未正式發(fā)布的Falcon Shores,同樣采用了將CPU、GPU、內(nèi)存封裝在一起的思路,只不過(guò)英特爾將其稱為“XPU”。
但目前來(lái)看,最接近這個(gè)目標(biāo)的反而是英偉達(dá)的Grace Hopper芯片。
英偉達(dá)的Grace Hopper將CPU和GPU集成在了一起
尾聲
在2009年APU的概念被提出時(shí),AMD正經(jīng)歷公司歷史上的最低谷,APU多少有些畢功一役的憋大招成分。
但也正是因?yàn)樘幱诘凸?,?dǎo)致AMD無(wú)法拿出足夠的資金與技術(shù)支持,讓APU的革命性理念真正落地,最終只變成了簡(jiǎn)單的CPU+GPU的組合。
從商業(yè)角度看,最適合在2009年搞點(diǎn)革命性產(chǎn)品的反而是富可敵國(guó)的英特爾,但英特爾當(dāng)時(shí)在干什么呢——心安理得的擠牙膏,同時(shí)拒絕為iPhone設(shè)計(jì)芯片。
這似乎是高科技公司常常會(huì)出現(xiàn)的狀況——在鼎盛年代忽視新的技術(shù)浪潮,在低谷期如夢(mèng)方醒倉(cāng)促憋大招。
事實(shí)上,英特爾還嘗試過(guò)“聯(lián)A抗N”——2017年,英特爾宣布將在自家CPU上集成AMD的GPU,合作推出新的芯片。
結(jié)果沒(méi)過(guò)多久,英特爾就挖走了AMD的核心技術(shù)負(fù)責(zé)人之一:圖形主管Raja Koduri,為英特爾開(kāi)發(fā)高端獨(dú)立GPU。