人工智能芯片有兩個功能。AI 構建者首先獲取大量(或真正龐大的)數(shù)據(jù)集并運行復雜的軟件來尋找該數(shù)據(jù)中的模式。這些模式被表示為模型,因此我們有芯片來“訓練”系統(tǒng)生成模型。
然后,該模型用于根據(jù)新數(shù)據(jù)進行預測,并且該模型從該數(shù)據(jù)中推斷出一些可能的結果。在這里,推理芯片針對已經(jīng)訓練過的模型運行新數(shù)據(jù)。這兩個目的是非常不同的。
訓練芯片旨在全速運行,有時一次運行數(shù)周,直到模型完成。因此,訓練芯片往往很大。
推理芯片更加多樣化,其中一些用于數(shù)據(jù)中心,另一些用于智能手機和攝像機等設備的“邊緣”。這些芯片往往更加多樣化,旨在優(yōu)化不同方面,例如邊緣的電源效率。當然,還有各種中間變體。關鍵是“AI芯片”之間存在很大差異。
對于芯片設計師來說,這些是非常不同的產(chǎn)品,但與所有半導體產(chǎn)品一樣,最重要的是在它們上面運行的軟件。從這個角度來看,情況要簡單得多,但也復雜得令人眼花繚亂。
很簡單,因為推理芯片通常只需要運行來自訓練芯片的模型(是的,我們過于簡單化了)。之所以復雜,是因為在訓練芯片上運行的軟件千差萬別。這是至關重要的?,F(xiàn)在有成百上千個框架用于訓練模型。有一些非常好的開源庫,但也有許多大型 AI 公司/超大規(guī)模公司構建了自己的庫。
由于訓練軟件框架的領域非常分散,實際上不可能構建針對它們優(yōu)化的芯片。正如我們過去指出的那樣,軟件中的小改動可以有效抵消專用芯片提供的增益. 此外,運行訓練軟件的人希望該軟件針對其運行的芯片進行高度優(yōu)化。運行這個軟件的程序員可能不想弄亂每個芯片的復雜性,他們的生活已經(jīng)夠辛苦的了,構建這些訓練系統(tǒng)。他們不想只為一個芯片學習低級代碼,以后又要為新芯片重新學習技巧和快捷方式。即使該新芯片提供“20%”更好的性能,重新優(yōu)化代碼和學習新芯片的麻煩也會使該優(yōu)勢變得毫無意義。
這讓我們想到了 CUDA——Nvidia 的低級芯片編程框架。至此,任何從事培訓練系統(tǒng)工作的軟件工程師都可能對使用 CUDA 有所了解。CUDA并不完美、優(yōu)雅或特別簡單,但它很熟悉。巨大的財富建立在這樣的奇思妙想之上。由于用于訓練的軟件環(huán)境已經(jīng)如此多樣化且變化迅速,因此訓練芯片的默認解決方案是 Nvidia GPU。
所有這些人工智能芯片的市場目前規(guī)模為數(shù)十億美元,預計在可預見的未來每年將增長 30% 或 40%。麥肯錫的一項研究(可能不是這里最權威的來源)顯示,到 2025 年,數(shù)據(jù)中心 AI 芯片市場將達到 130 億美元至 150 億美元——相比之下,目前 CPU 市場總額約為 750 億美元。
在價值 150 億美元的人工智能市場中,大約三分之二是推理,三分之一是訓練。所以這是一個相當大的市場。所有這一切的一個問題是訓練芯片的價格在 1,000 美元甚至 10,000 美元,而推理芯片的價格在 100 美元以上,這意味著訓練芯片的總數(shù)只占總數(shù)的一小部分,大約 10%-20% 的單位。
從長遠來看,這對市場如何形成很重要。
Nvidia 將獲得大量訓練利潤,它可以在推理市場競爭中發(fā)揮作用,類似于英特爾曾經(jīng)使用 PC CPU 來填充其晶圓廠和數(shù)據(jù)中心 CPU 以產(chǎn)生大部分利潤。
需要明確的是,英偉達并不是這個市場上唯一的參與者。AMD 也生產(chǎn) GPU,但從未開發(fā)出有效(或至少被廣泛采用)的 CUDA 替代品。他們在 AI GPU 市場的份額相當小,我們認為這種情況不會很快改變。
有許多初創(chuàng)公司試圖構建訓練芯片,但大多因上述軟件問題而陷入困境。值得一提的是,AWS 還部署了自己的、內(nèi)部設計的訓練芯片,巧妙地命名為Trainium。據(jù)我們所知,這取得了一定的成功,AWS 除了自己的內(nèi)部(大量)工作負載外,在這里沒有任何明顯的優(yōu)勢。然而,我們知道他們正在推進下一代 Trainium,因此他們對目前的結果一定很滿意。
其他一些超大規(guī)模企業(yè)也可能正在構建自己的訓練芯片,尤其是谷歌,它即將推出專門針對訓練進行調(diào)整的新 TPU 變體。這就是市場。簡而言之,我們認為訓練計算市場上的大多數(shù)人都希望在 Nvidia GPU 上構建他們的模型。
轉載微信公眾號:半導體行業(yè)觀察
聲明:本文版權歸原作者所有,轉發(fā)僅為更大范圍傳播,若有異議請聯(lián)系我們修改或刪除:zhangkai@cgbtek.com