微軟已花費多年時間設(shè)計自家的人工智能芯片,部分原因是希望減少對英偉達的依賴。然而,這一計劃的進展并不順利。
微軟AI芯片延期,存在三大致命硬傷
按照年收入計算,微軟是英偉達最大的客戶之一,但其最新一代AI芯片的設(shè)計進展遠遠落后于預(yù)期。這意味著,當這些芯片投入量產(chǎn)時,可能會遠遠落后于英偉達的同類產(chǎn)品,缺乏足夠的競爭力。
微軟面臨的困境凸顯了一個問題:隨著AI技術(shù)的飛速發(fā)展,企業(yè)在開發(fā)專用AI芯片時,面臨的挑戰(zhàn)愈發(fā)嚴峻。而英偉達的通用處理器以其卓越的性能主導(dǎo)著整個行業(yè)。
芯片開發(fā)通常需要至少兩年的時間,但隨著AI領(lǐng)域的快速突破,專用AI芯片需要應(yīng)對不斷變化的技術(shù)需求,面臨著隨時過時的風(fēng)險,特別是在AI模型的構(gòu)建和運行方式發(fā)生重大變化時。
據(jù)知情人士透露,微軟的下一代AI芯片代號為Braga,計劃推遲至少六個月才能進入量產(chǎn)。這意味著,量產(chǎn)時間將從2025年推遲至2026年。即使Braga芯片投產(chǎn),預(yù)計其性能也將遠遜于英偉達的旗艦芯片Blackwell,后者在2024年底發(fā)布。
微軟原計劃今年將Braga芯片部署到其數(shù)據(jù)中心。但項目負責(zé)人表示,Braga芯片的推遲主要由于設(shè)計發(fā)生預(yù)料之外的變化、研發(fā)團隊人員不足以及員工流動性過高等因素。微軟發(fā)言人拒絕對此發(fā)表評論。
微軟AI路線圖:三年發(fā)三款推理芯片
微軟從2019年開始開發(fā)其首款A(yù)I芯片,并于2023年發(fā)布了Maia 100芯片。當時,微軟將Maia 100宣傳為“顛覆性”產(chǎn)品,稱其能夠支持Copilot等AI助手和ChatGPT等AI服務(wù)。OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)也高度評價了這款芯片,表示它為訓(xùn)練更多模型、降低運行成本打開了大門。
然而,實際情況卻并非如此。微軟主要將Maia 100用于內(nèi)部測試,而非實際生產(chǎn)環(huán)境。根據(jù)多位在職及離職的微軟員工透露,Maia 100并未為微軟的任何AI服務(wù)提供支持,主要原因是該芯片最初于2019年設(shè)計,正好發(fā)生在OpenAI發(fā)布ChatGPT之前,其設(shè)計重點是圖像處理,而非生成式AI。
在2024年Maia 100發(fā)布后,微軟啟動了一個雄心勃勃的計劃,計劃在2025年、2026年和2027年分別發(fā)布三款后續(xù)芯片,代號分別為Braga、Braga-R和Clea,并將它們部署到數(shù)據(jù)中心。然而,Braga芯片推遲至2026年,這引發(fā)了人們對微軟是否能夠按時推出剩余兩款芯片的擔憂。
據(jù)三位微軟芯片團隊成員透露,這三款芯片均為推理芯片,主要用于將訓(xùn)練好的模型應(yīng)用到新數(shù)據(jù)上,以生成回應(yīng)或做出決策。微軟原計劃設(shè)計一款用于訓(xùn)練AI模型的芯片,但在2024年初取消了這一計劃。
在Braga芯片開發(fā)的過程中,微軟要求對其設(shè)計進行更改,以滿足OpenAI提出的新功能需求。這使得芯片在模擬測試中變得不穩(wěn)定,工程師不得不花費幾個月時間來解決問題。
盡管Braga芯片的設(shè)計經(jīng)歷了重大變化,但微軟高層依然堅持要求在年底前完成設(shè)計。這一最后期限給芯片團隊帶來了極大的壓力,導(dǎo)致有五分之一的團隊成員離開了項目。多位參與者表示,微軟的芯片團隊人員流動性較高。
據(jù)知情人士透露,微軟的AI芯片在至少Maia 300(代號Clea)問世之前,將難以與英偉達的產(chǎn)品競爭。Clea將采用全新設(shè)計,與Braga相比,其性能將大幅提升。但在此之前,Maia系列芯片的電力消耗較高,性能也大幅落后于英偉達的同類產(chǎn)品。
針對日益增多的競爭性自主芯片項目,英偉達也做出了回應(yīng)。據(jù)參與該項目的人員透露,英偉達為了使客戶難以用其它芯片替代其產(chǎn)品,已為其旗艦AI硬件系統(tǒng)GB200設(shè)定了極為激進的性能目標。
微軟/谷歌/亞馬遜集體造芯,卻還是干不過英偉達!
微軟并不是唯一一家計劃開發(fā)自家AI芯片的大型科技公司。亞馬遜也在研發(fā)其第三代AI芯片——Trainium 3,預(yù)計將在今年年底前交付客戶。亞馬遜發(fā)言人表示,項目進展順利,Trainium 3將提供比前一代Trainium 2高出兩倍的計算能力。
與此同時,谷歌已經(jīng)花費約十年時間自研AI芯片,稱為TPU(張量處理單元)。因此,谷歌無需依賴英偉達的芯片來訓(xùn)練或運行大多數(shù)AI模型。據(jù)知情人士透露,谷歌的下一代TPU芯片代號為Ironwood,預(yù)計將在今年底開始小規(guī)模生產(chǎn),并于明年大規(guī)模量產(chǎn)。
不過,谷歌依然是英偉達的重要客戶,因為它租賃搭載英偉達芯片的服務(wù)器供云計算客戶使用,同時也使用英偉達芯片來支持一些不適合由谷歌TPU處理的AI服務(wù)。
谷歌也面臨著其他問題。去年,谷歌與聯(lián)發(fā)科合作設(shè)計下一代TPU芯片,但該合作遭遇了挫折。負責(zé)TPU網(wǎng)絡(luò)技術(shù)的聯(lián)發(fā)科核心團隊多位成員離職,轉(zhuǎn)而加入英偉達。這項技術(shù)對于AI至關(guān)重要,因為它能讓多個芯片協(xié)同工作。
英偉達CEO黃仁勛6月初在開發(fā)者大會上表示,大多數(shù)大型科技公司正在推進的競爭性芯片項目最終會被放棄。他還質(zhì)問道:“如果你做的ASIC(特定應(yīng)用集成電路)不比現(xiàn)有的更好,那還有什么意義?”