新聞中心

公司新聞
公司新聞
行業(yè)新聞
行業(yè)新聞

硅光芯片如何連接到GPU？英偉達(dá)是這樣看的！

發(fā)布時(shí)間：2022-08-19發(fā)布人：

硅光芯片如何連接到GPU？英偉達(dá)是這樣看的！

在過(guò)去幾面，我們一直在談?wù)摴韫庾訉W(xué)，以至于我們可能和你們中的許多人一樣，對(duì)它還沒(méi)有普及感到沮喪。但好消息是隨著電信號(hào)的進(jìn)步，我們可能現(xiàn)在不得不轉(zhuǎn)向光芯片尋找?guī)椭?/p>

由于組件之間的電氣互連成本要低得多，這對(duì)價(jià)格/性能等式的價(jià)格分子部分來(lái)說(shuō)是一個(gè)福音，盡管硅光子學(xué)在該等式的分母性能部分具有優(yōu)勢(shì)。隨著時(shí)間的推移，隨著帶寬的增加，電信號(hào)變得越來(lái)越短，而且噪音也越來(lái)越大。這一天將不可避免地到來(lái)，我們將從電子轉(zhuǎn)向光子作為電磁信號(hào)方法，從銅轉(zhuǎn)向光纖玻璃作為信號(hào)介質(zhì)。

這條曲線來(lái)自 Nvidia 首席科學(xué)家 Bill Dally 在 3 月份的光纖通信會(huì)議上發(fā)表的演講，很好地說(shuō)明了這一點(diǎn)：

這些曲線沒(méi)有爭(zhēng)議，盡管你可以用材料科學(xué)魔法稍微彎曲它們。

幾周前，英偉達(dá)與 Ayar Labs 簽署了研發(fā)合作協(xié)議，我們坐下來(lái)與這家硅光子初創(chuàng)公司的首席執(zhí)行官 Charlie Wuischpard 進(jìn)行了交談，討論了兩人將開(kāi)展的工作。Nvidia 參與了 Ayar Labs 今年早些時(shí)候進(jìn)行的 C 輪融資，當(dāng)時(shí)它籌集了 1.3 億美元來(lái)開(kāi)發(fā)其帶外激光器和硅光子互連。Hewlett Packard Enterprise也在今年 2 月與 Ayar Labs 簽署了一項(xiàng)協(xié)議。為了弄清楚如何將硅光子學(xué)引入 Slingshot 互連，他也是今年 4 月那輪融資的投資者。Ayar Labs 也得到了英特爾的早期支持，盡管英特爾希望將激光器嵌入芯片內(nèi)部，而不是像 Ayar Labs 那樣從芯片外部泵入激光信號(hào)。（如果現(xiàn)在有什么是真的，那就是英特爾現(xiàn)在不能做錯(cuò)任何事。所以英特爾用硅光子對(duì)沖它的賭注是件好事。）

在 4 月份的融資時(shí)，我們與 Wuischpard 詳細(xì)討論了硅光子學(xué)適合現(xiàn)代系統(tǒng)的地方——以及它尚不適合的地方，最近，我們得到了一些關(guān)于 Nvidia 可能專(zhuān)門(mén)開(kāi)發(fā)的東西的提示。

我們隨后了解到 Dally 在 OFC 2022 上所做的上述演示，該演示非常具體地概述了使用密集波分復(fù)用 (DWDM：dense wave division multiplexing) 的共同封裝光學(xué)器件的目標(biāo)，以及如何將硅光子學(xué)用作交叉連接機(jī)架的傳輸和機(jī)架的 GPU 計(jì)算引擎。

該演示文稿展示了一個(gè)未命名的概念機(jī)器，例如Dally 的團(tuán)隊(duì)早在 2010 年開(kāi)發(fā)的“Echelon”概念百億億次系統(tǒng)，我們?cè)?2012 年就聽(tīng)說(shuō)了。該機(jī)器有特殊的數(shù)學(xué)引擎——不是 GPU——它們之間具有高基數(shù)電氣切換和 Cray “Aries” 機(jī)器機(jī)架之間的光學(xué)互連。而且那臺(tái) Echelon 機(jī)器顯然從未商業(yè)化，而 Nvidia 取而代之的是 Dally 在 Nvidia Research 研究的 NVSwitch 內(nèi)存互連，并提早將其投入生產(chǎn)，以制造本質(zhì)上由fat多端口 InfiniBand 互連的大型iron NUMA GPU 處理器復(fù)合體代替pipes。

在最初的基于 NVSwitch 的 DGX 系統(tǒng)中，Nvidia 只能使用“Volta”V100 GPU 加速器在單個(gè)圖像中擴(kuò)展到 16 個(gè) GPU，而使用“Ampere”A100 GPU 加速器時(shí)，Nvidia 不得不將每個(gè) GPU 的帶寬加倍，因此必須將 NVSwitch 的基數(shù)減少兩倍，因此只能將八個(gè) GPU 組合成一個(gè)圖像。借助今年早些時(shí)候宣布的 NVSwitches 的leaf/spine 網(wǎng)絡(luò)以及將于今年晚些時(shí)候發(fā)貨的“Hopper”H100 GPU 加速器，Nvidia 可以將 256 個(gè) GPU 組合成一個(gè)內(nèi)存結(jié)構(gòu)，這是一個(gè)巨大的改進(jìn)因素。

但歸根結(jié)底，作為 DGX H100 SuperPOD 核心的 NVSwitch 結(jié)構(gòu)本質(zhì)上仍然是一種創(chuàng)建放大 NUMA 機(jī)器的方法，而且它絕對(duì)受到電纜布線的限制。而且 NVSwitch 的規(guī)模，即使是 Hopper 一代，也比不上超大規(guī)模生產(chǎn)商為運(yùn)行最大的 AI 工作負(fù)載而捆綁在一起的數(shù)萬(wàn)個(gè) GPU。

“我不能談太多細(xì)節(jié)，”Wuischpard 笑著告訴The Next Platform?！澳阒?，我們是一個(gè)物理層解決方案，在軟件和 GPU、內(nèi)存和 CPU 之間的編排方面，還有很多東西要超越它。我們不參與任何這些事情。因此，我想你可以將我們視為未來(lái)的物理支持。這是一種多階段的方法。這不僅僅是一個(gè)踢輪胎的練習(xí)。但我們必須在一些參數(shù)范圍內(nèi)證明自己，我們必須達(dá)到一些里程碑?！?/p>

我們希望這能澄清這一點(diǎn)。

無(wú)論如何，現(xiàn)在讓我們轉(zhuǎn)向 Dally 在 OFC 2022 上的演講，該演講跳到了未來(lái)的 GPU 加速系統(tǒng)與硅光子互連的樣子。在我們開(kāi)始討論之前，讓我們看看 GPU 或交換機(jī)之間的帶寬和功率限制、它們連接的印刷電路板以及它們可能被匯集到的機(jī)柜，這為硅光子互連奠定了基礎(chǔ)：

規(guī)則很簡(jiǎn)單，鏈路越短，帶寬就越高，移位所消耗的功耗就越低。下表列出了中介層、印刷電路板、共封裝光學(xué)器件、電纜和有源光纜的相對(duì)功率、成本、密度和每一個(gè)，所有這些都是構(gòu)成現(xiàn)代系統(tǒng)不同層次的電線。

使用 DWDM 的共同封裝光學(xué)器件的目標(biāo)是具有比電纜更低的功耗，但成本相似，具有與有源電纜相當(dāng)?shù)姆秶?，并提供與印刷電路板相當(dāng)?shù)男盘?hào)密度。

以下是 Dally 對(duì) DWDM 信號(hào)的示意圖：

下面是 GPU 和 NVSwitch 如何使用光學(xué)引擎將電信號(hào)轉(zhuǎn)換為光學(xué)信號(hào)以創(chuàng)建 GPU 的 NVSwitch 網(wǎng)絡(luò)的框圖：

每個(gè)光學(xué)引擎有 24 根光纖，它們最初將以 200 Gb/秒的信號(hào)速率運(yùn)行，總帶寬為 4.8 Tb/秒。每個(gè) GPU 都有一對(duì)這樣的設(shè)備，可以為其提供進(jìn)出 NVSwitch 結(jié)構(gòu)的雙向帶寬。因此，具有六個(gè)光學(xué)引擎的 NVSwitch 的原始速率為 28.8 Tb/秒，去除編碼開(kāi)銷(xiāo)后為 25.6 Tb/秒。

以下是 Nvidia 硅光子概念機(jī)中設(shè)備組件之間各種障礙的能耗如何計(jì)算：

在 GPU 和交換機(jī)之間移入和移出數(shù)據(jù)的每比特 3.5 皮焦耳與 Dally 在上表中設(shè)定的目標(biāo)完全一致。我們懷疑成本仍然必須降低才能使計(jì)算引擎可以接受共同封裝的光學(xué)器件，但是這里正在進(jìn)行大量工作，每個(gè)人都非常積極。

當(dāng)前 DGX-A100 系統(tǒng)上的嵌入式 NVSwitch 結(jié)構(gòu)上使用的電信號(hào)傳輸范圍約為 300 厘米，并以每比特 8 皮焦耳的速度傳輸數(shù)據(jù)。目標(biāo)是硅光子學(xué)以一半的能量做到這一點(diǎn)，并將設(shè)備之間的距離提高到 100 米。

發(fā)生這種情況時(shí)，您可以分解架構(gòu)中的 GPU 和交換機(jī)——雖然 Nvidia 的概念機(jī)沒(méi)有顯示這一點(diǎn)，但 CPU 也可以具有光學(xué)引擎，并且它們也可以分解。

以下是帶有共同封裝光學(xué)器件的 GPU 和交換機(jī)的外觀：

以下是具有 CPO 鏈接的 GPU 和 NVSwitch 的聚合方式：

外部激光源占用了大量空間，但這也意味著機(jī)架的密度可以大大降低，因?yàn)樵O(shè)備之間的連接可以更長(zhǎng)。這將使冷卻更容易，并且激光器也可以更換。如果所有這些東西都運(yùn)行得更冷，激光也會(huì)更好地工作。密度被高估了，并且在許多情況下，例如 DGX 系統(tǒng)，機(jī)器最終會(huì)變得非常熱，以至于您無(wú)論如何只能安裝一半的機(jī)架，因?yàn)楣β拭芏群屠鋮s需求超出了大多數(shù)數(shù)據(jù)中心的處理能力。

您會(huì)注意到，上面的 GPU 和開(kāi)關(guān)行是垂直放置的，這有助于冷卻。而且它們也沒(méi)有安裝在帶有 sockets的巨型印刷電路板上，這將有助于降低整體系統(tǒng)成本，以幫助支付使用光學(xué)互連的費(fèi)用。

聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)發(fā)僅為更大范圍傳播，若有異議請(qǐng)聯(lián)系我們修改或刪除：zhangkai@cgbtek.com

突發(fā)！江蘇多地傳出輪流限電限產(chǎn)，電子制造業(yè)恐再受影響

三星236層閃存，終于要來(lái)了！

国产高潮在线观看视频_一级免费黄色视频_超碰人人青青久久_婷婷玖玖深爱网_高潮颤抖大叫正在播放_伊人亚洲综合网色_久热思思热这里只有国产中文精品_免费阿v网站在线观看g_国产大学生酒店小美女_99天堂视頻網站

新聞中心

公司新聞

行業(yè)新聞