在一批公司反應(yīng)過來要做 AI 應(yīng)用之際,領(lǐng)跑的微軟沖入一個艱難的市場。科技媒體 The Information 報道稱,微軟希望使用一款內(nèi)部代號為 “雅典娜”(Athena)的 AI 芯片為 ChatGPT 和其他 AI 應(yīng)用提供算力支持。
雅典娜并非臨時為 ChatGPT 打造,早在 2019 年,包括 CEO 納德拉在內(nèi)的微軟高管就意識到公司在云計算領(lǐng)域已經(jīng)落后于 Google 和亞馬遜,并開始自研服務(wù)器芯片。去年,微軟還從蘋果挖走了資深芯片設(shè)計專家 Mike Filippo。目前雅典娜的團(tuán)隊規(guī)模已經(jīng)超過 300 人,不少工程師都來自英偉達(dá)、AMD、英特爾等芯片大廠。
但 ChatGPT 確實促使微軟加快了項目進(jìn)度。去年 11 月,微軟和英偉達(dá)達(dá)成多年合作協(xié)議,共同打造基于英偉達(dá)芯片的超級計算機(jī)。不過微軟很快發(fā)現(xiàn),隨著 ChatGPT 火熱引發(fā)算力荒,完全依賴英偉達(dá)的成本過于昂貴。
根據(jù)研究機(jī)構(gòu) SemiAnalysis 首席分析師迪倫·帕特爾(Dylan Patel)的測算,ChatGPT 每天的運營成本約為 70 萬美元,再加上已經(jīng)或即將嵌入 GPT 的 Bing、Office 365 和 GitHub 等,微軟每年要在 AI 推理上花費數(shù)百億美元。而 “雅典娜” 每年研發(fā)費用約為 1 億美元,性能占優(yōu)的話每塊芯片可以節(jié)省約三分之一成本。
微軟預(yù)計將在明年大規(guī)模生產(chǎn)初代雅典娜芯片,使用臺積電 5nm 工藝,量產(chǎn)后供公司內(nèi)部和 OpenAI 使用,微軟還制定了后續(xù)的迭代路線圖。
不過微軟還沒決定是否要向其他云計算客戶提供雅典娜芯片,因為大多數(shù)客戶并不需要培訓(xùn)自己的大模型,也就不需要太多算力。而如果公開售賣,微軟還必須為雅典娜開發(fā)與之匹配的軟件和系統(tǒng),后者是英偉達(dá) GPU 能夠廣泛應(yīng)用于 AI 領(lǐng)域的重要原因。
在自研 AI 芯片方面,Google 比微軟走得更早、更遠(yuǎn),其專用芯片(ASIC)TPU 自 2015 年就已經(jīng)部署到自家服務(wù)器當(dāng)中,目前已經(jīng)迭代到第四代。根據(jù) Google 最近更新的一篇博客,TPU v4 比英偉達(dá)上一代最先進(jìn)的 AI 芯片(GPU) A100 快 1.2 至 1.7 倍,功耗低 1.3 至 1.9 倍。目前 Google 90% 以上的 AI 訓(xùn)練工作都由自家 TPU 芯片承擔(dān)。
基于 TPU,Google 還打造了擁有 4096 塊芯片的超級計算機(jī),迄今為止公開披露過的最大語言模型 PaLM 就曾被拆分至兩臺 Google 超級計算機(jī)上訓(xùn)練,用時 50 天。此外,AI 繪畫平臺 Midjourney 背后的模型也是通過 Google 的超級計算機(jī)訓(xùn)練。(邱豪)