
01、
前沿導讀
據(jù)路透社新聞報道稱,中國的技術(shù)團隊正在針對大規(guī)模的老舊英偉達芯片進行修理維護工作。
現(xiàn)在中國團隊所掌握的這些來自于英偉達的H100、A100芯片,都是在美國禁令實施之前所采購的老舊產(chǎn)品,由于美國的對華封鎖,這些老舊芯片失去了英偉達官方的技術(shù)維護。#英偉達
深圳地區(qū)大約有十幾家小公司針對英偉達的ai芯片進行維修服務(wù),其每月的處理數(shù)量高達500次以上。
這種對老舊產(chǎn)品的技術(shù)維修,在一定程度上減輕了中國企業(yè)對于先進ai芯片的需求壓力,使其可以繼續(xù)采用美國的高算力芯片進行ai訓練。
02、
產(chǎn)品修復
正常投入訓練的GPU芯片,其綜合壽命為2-5年,隨后就需要官方對其進行維護保養(yǎng)。但是中國市場的A100、H100芯片長時間高負荷運行,極大壓縮了壽命時間。Meta公司用1.6萬張H100芯片組成的訓練集群,曾經(jīng)在54天內(nèi)出現(xiàn)了400次的故障,其中大約有58%的故障都是因為硬件問題。
在美國頒布了芯片禁令之后,中國市場上面所存在的老舊英偉達芯片成為了唯一資源。
持續(xù)高負荷的工作負載,將會導致芯片出現(xiàn)損耗,例如干導熱膏、風扇問題、PCB 上的組件疲勞以及 SXM 接口中的連接器引腳損壞或氧化。
以上只是算力芯片可能出現(xiàn)的情況,實際上還會出現(xiàn)更復雜的問題。例如電子系統(tǒng)故障、大型GPU或HBM封裝下的焊點裂紋,甚至HBM內(nèi)存退化。除了模具開裂、中介層分層等致命的硬件故障無法修復之外,其他的問題均可以通過技術(shù)手段進行修復。
對于這種外觀破損的產(chǎn)品,英偉達官方也是不被列入保修范圍之內(nèi)的。
據(jù)網(wǎng)易科技所發(fā)布的新聞報告顯示,一位在深圳從事芯片維修的商家自2024年開始涉足ai芯片的維修之后,門店每天的維修需求龐大,生意火爆。為了應(yīng)對日益龐大的維修需求,該商家專門成立了一家新公司,專門處理ai芯片的維修訂單,每個月大約要維修500塊以上的英偉達芯片。
為了驗證其維修的精準程度,商家的維修中心還配備了一個可以容納256臺服務(wù)器的機房,以此來對維修之后的ai芯片進行技術(shù)驗證。
雖然中國企業(yè)已經(jīng)推出了類似作用的ai級芯片產(chǎn)品,但是受制于性能和產(chǎn)能的劣勢,使用英偉達芯片來訓練ai依然是目前的主流選擇。
03、
市場需求
2022年,在英偉達最新的H100芯片發(fā)布之前,美國政府就宣布在一段時間后,對中國企業(yè)進行產(chǎn)品的禁售。這不但限制了H100芯片的對華出口,而且還將兩年前發(fā)布的A100芯片一并封鎖。
按照美國的政策規(guī)定,不允許英偉達繼續(xù)為中國市場上面的受限產(chǎn)品提供售后服務(wù),這也順勢催生出了中國本土的維修產(chǎn)業(yè)鏈。
前段時間,美國政府允許英偉達的H20芯片對中國進行出口。雖然這塊芯片被美國解除了禁令,但是其算力性能較弱,相當于H100芯片20%的性能,是英偉達專供于中國市場的特供芯片。
美國瑞杰金融集團(Raymond James)的分析師曾指出,英偉達H100芯片的每塊售價在2.5萬美元—3萬美元之間,如果因產(chǎn)能受阻或是出口管制引起搶購熱潮,那么英偉達所有算力芯片的售價將會大幅度提升。
據(jù)財聯(lián)社記者通過多方采訪證實,H20系列的價格增速最為明顯。一臺內(nèi)置8塊H20芯片的訓練集群,其綜合售價已經(jīng)達到了110萬元,相較于2024年的售價漲幅至少10萬元。
這對于許多中國公司來說,相較于購買H20芯片所獲得的技術(shù)效率,還不如去采購本土的ai芯片,或者找技術(shù)機構(gòu)去維護老舊的ai產(chǎn)品。
英偉達算力卡經(jīng)銷商對財聯(lián)社記者表示,對于中國市場來說,H20芯片是主流,其次是A100和H100。由于A100和H100均被美國進行了出口管制,只有H20被允許出口,所以H20的售價被進一步拉高。
華為的昇騰芯片雖然在算力性能上面與H20不相上下,但是受限于產(chǎn)能,昇騰芯片還無法完全吃下H20芯片的市場。
在國產(chǎn)芯片產(chǎn)能受阻、H20芯片有限供應(yīng)的情況下,催生出維修老款英偉達芯片的技術(shù)團隊。這些專注于維修算力芯片的團隊,在一定程度上緩解了中國企業(yè)對于高算力芯片的需求。