美國(guó)公司稱研發(fā)世界最大芯片,借此誕生120萬(wàn)億“大腦級(jí)”AI模型
來(lái)源:DeepTech深科技
在近日的 Hot Chips 大會(huì)上,美國(guó)芯片公司 Cerebras 的 CEO 安德魯·費(fèi)爾德曼(Andrew Feldman) 展示了他們號(hào)稱的世界第一個(gè)人腦級(jí) AI 解決方案,將192 個(gè)CS-2 集群在一起,實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)擁有120萬(wàn)億個(gè)連接量。
在近日的 Hot Chips 大會(huì)上,美國(guó)芯片公司 Cerebras 的 CEO 安德魯·費(fèi)爾德曼(Andrew Feldman) 展示了他們號(hào)稱的世界第一個(gè)人腦級(jí) AI 解決方案,將192 個(gè)CS-2 集群在一起,實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)擁有120萬(wàn)億個(gè)連接量。
這相當(dāng)于人類大腦中的突觸數(shù)量。
安德魯·費(fèi)爾德曼表示,這項(xiàng)技術(shù)使目前最大的人工智能神經(jīng)網(wǎng)絡(luò)的規(guī)模擴(kuò)大了 100 倍。
與 Cerebras 合作的阿貢國(guó)家實(shí)驗(yàn)室的副主任里克·史蒂文斯(Rick Stevens)對(duì)此評(píng)價(jià)道:“過(guò)去幾年向我們表明,對(duì)于 NLP 模型來(lái)說(shuō),參數(shù)越多,結(jié)果就越好。Cerebras 的發(fā)明將提高 100 倍的參數(shù)容量,它有可能改變行業(yè)。我們將首次能夠探索人腦大小的模型,開(kāi)辟了廣闊的研究和洞察的新途徑。”
Cerebras CS-2,地球最快人工智能處理器
在這項(xiàng)技術(shù)中發(fā)揮重要作用的 CS-2 是什么?
CS-2 專為超級(jí)計(jì)算任務(wù)而構(gòu)建,這是自 2019 年以來(lái),Cerebras 公司第二次推出基本上是整個(gè)晶圓的芯片。
芯片制造商通常從直徑為 12 英寸的硅錠中切片晶圓,再在芯片工廠中加工。一旦加工,晶圓被切成數(shù)百個(gè)單獨(dú)的芯片,可分別用于電子硬件。
但 Cerebras 用整個(gè)晶圓制作了一塊巨大的芯片。芯片的每一塊被稱為 "核心",都以復(fù)雜的方式與其他內(nèi)核互連?;ミB旨在保持所有內(nèi)核高速工作,以便晶體管可以協(xié)同工作。
CS-2擁有 46225 mm2 面積的硅、2.6 萬(wàn)億個(gè)晶體管和 85萬(wàn)個(gè) AI 優(yōu)化內(nèi)核,全部包裝在單個(gè)晶圓大小的 7nm 處理器上。
首個(gè)人腦級(jí) AI 解決方案解鎖四項(xiàng)創(chuàng)新
Cerebras 的聯(lián)合創(chuàng)始人兼首席硬件架構(gòu)師肖恩·烈(Sean Lie)在會(huì)議上詳細(xì)介紹了首個(gè)人腦級(jí) AI 解決方案所涉及的技術(shù)。
此前,谷歌研究人員在 1 月份宣布,他們已經(jīng)培訓(xùn)了一個(gè)總共擁有 1.6 萬(wàn)億參數(shù)的模型,大約是人腦比例的 1%,即大約 1 萬(wàn)億個(gè)突觸等價(jià)物或參數(shù)。這些圖形處理器群只消耗了人類大腦的一小部分,卻消耗了數(shù)英畝的空間和兆瓦的功率,而且需要專門的團(tuán)隊(duì)來(lái)操作。
為了解鎖極端尺度模型的潛力,Cerebras 意識(shí)到需要一種新的方法來(lái)解決同時(shí)擴(kuò)展大量?jī)?nèi)存、計(jì)算和通信的挑戰(zhàn)。
Cerebras 的新技術(shù)組合包含四項(xiàng)創(chuàng)新:Cerebras Weight Streaming,一種新的軟件執(zhí)行架構(gòu);Cerebras MemoryX,一種內(nèi)存擴(kuò)展技術(shù);Cerebras SwarmX,高性能互連織物技術(shù);Selectable Sparsity,一種動(dòng)態(tài)的稀疏收獲技術(shù)。
肖恩·烈介紹道,Cerebras 決定處理傳統(tǒng)上分配內(nèi)存、計(jì)算和通信以及同時(shí)同步所有內(nèi)存等復(fù)雜的、相互交織的問(wèn)題,并將它們分解。能夠這樣做的原因是,神經(jīng)網(wǎng)絡(luò)對(duì)模型計(jì)算的不同組件使用不同的內(nèi)存。這種模式解鎖了獨(dú)特的靈活性,允許模型大小和訓(xùn)練速度的獨(dú)立縮放,大大簡(jiǎn)化了縮放問(wèn)題。
在這種模式下,將模型權(quán)值存儲(chǔ)在一種名為 MemoryX 的新內(nèi)存擴(kuò)展技術(shù)中,并根據(jù)需要將權(quán)值流到 CS-2 系統(tǒng)中,以計(jì)算網(wǎng)絡(luò)的每一層,一次一層。在向后傳遞時(shí),梯度被反向流回 MemoryX,在那里及時(shí)執(zhí)行權(quán)重更新,以用于下一次迭代的訓(xùn)練。
在這個(gè)拓?fù)浣Y(jié)構(gòu)中,還引入了一種名為 SwarmX 的互連結(jié)構(gòu)技術(shù),可以為極端規(guī)模的模型近線性地?cái)U(kuò)展 CS-2 系統(tǒng)的數(shù)量。
除了擴(kuò)展能力和性能,Cerebras 的架構(gòu)獨(dú)特地為稀疏神經(jīng)網(wǎng)絡(luò)提供了巨大的加速。這些技術(shù)對(duì)于實(shí)現(xiàn)極端規(guī)模的實(shí)際應(yīng)用至關(guān)重要,因?yàn)閭鹘y(tǒng)的架構(gòu)并不能加速這些稀疏網(wǎng)絡(luò)。另一方面,Cerebras 的架構(gòu)使用細(xì)粒度的數(shù)據(jù)流調(diào)度來(lái)觸發(fā)有用工作的計(jì)算,這能夠節(jié)省功率和實(shí)現(xiàn) 10 倍的重量稀疏性加速。
對(duì)于研究人員來(lái)說(shuō),這種體系結(jié)構(gòu)是無(wú)縫的:用戶只需為單個(gè) CS-2 系統(tǒng)編寫(xiě)神經(jīng)網(wǎng)絡(luò)映射,而 Cerebras 軟件在用戶的擴(kuò)展中負(fù)責(zé)執(zhí)行,消除了傳統(tǒng)的內(nèi)存分區(qū)、協(xié)調(diào)和同步。
林利集團(tuán)(Linley Group)高級(jí)分析師、《微處理器報(bào)告》(The Microprocessor Report)高級(jí)編輯邁克·德姆勒(Mike Demler)表示:“他們可以將培訓(xùn)的可擴(kuò)展性提升到巨大的層面,超越目前任何人正在做的事情?!?/p>
CS-2 系統(tǒng)的核心,WSE-2(the Wafer Scale Engine Two),可以接受標(biāo)準(zhǔn) PyTorch 和 Tensor Flow 代碼,這些代碼很容易被公司的軟件工具和 API 修改。Cerebras 還允許客戶指導(dǎo)級(jí)別訪問(wèn)硅,這與 GPU 供應(yīng)商形成鮮明對(duì)比。
據(jù)安德魯·費(fèi)爾德曼說(shuō),Cerebras 計(jì)劃通過(guò)瞄準(zhǔn)一個(gè)新興的市場(chǎng)來(lái)擴(kuò)展大型自然語(yǔ)言處理人工智能算法,目前已經(jīng)與 OpenAI 公司的工程師進(jìn)行了交談,該公司在舊金山率先將大型神經(jīng)網(wǎng)絡(luò)用于語(yǔ)言學(xué)習(xí)以及機(jī)器人和游戲。
OpenAI 的創(chuàng)始人之一薩姆·奧特曼(Sam Altman)是 Cerebras 的投資者。當(dāng)被問(wèn)及一個(gè) 100 倍大的 GPT 版本是否一定更聰明時(shí),薩姆·奧特曼表示,“很難確定,但對(duì)此持樂(lè)觀態(tài)度”。
(聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)發(fā)僅為更大范圍傳播,若有異議請(qǐng)聯(lián)系我們修改或刪除:wang@cgbtek.com)
COPYRIGHT北京華林嘉業(yè)科技有限公司 版權(quán)所有 京ICP備09080401號(hào)