新聞中心

公司新聞
公司新聞
行業(yè)新聞
行業(yè)新聞

3D芯片時(shí)代，這個(gè)問(wèn)題要重視

發(fā)布時(shí)間：2022-07-08發(fā)布人：

3D芯片時(shí)代，這個(gè)問(wèn)題要重視

I.引言

自 1959 年 MOSFET 和 1963 年 CMOS 發(fā)明以來(lái)，CMOS 電路成為低功耗電池供電應(yīng)用（如數(shù)字手表和便攜式儀器）的首選技術(shù)。隨后，光刻技術(shù)(lithography scaling) 使CMOS踏入高性能計(jì)算的競(jìng)爭(zhēng)行列中。Dennard 1974年對(duì)CMOS 縮放(CMOS scaling)原理的總結(jié)根據(jù)摩爾定律進(jìn)一步為微電子行業(yè)提供了科學(xué)的縮放(scaling)方向。然而，到 2005 年，平面 MOSFET的亞閾值泄漏阻止了 Vth、Vdd 和頻率按比例縮放，這很大程度上打破了Dennard 縮放原理(scaling principle)。雙柵極 (SOI) 和三柵極 (FinFET) 的發(fā)明使通道得到了更好的控制，從而載流子不會(huì)逃逸到襯底。環(huán)柵（例如：納米線和納米片）MOSFET 的溝道被柵電極包圍，具有更好的靜電控制，從而減少了泄漏并提高了載流子遷移率。使用多納米片，單位面積內(nèi)的有效寬度W (W_eff) 也得到改善，與 FinFet 器件相比，允許適度的密度縮放。業(yè)界即將對(duì) CMOS 縮放(CMOS scaling)進(jìn)行更多改進(jìn)。ForkFET 在 PMOS 和 NMOS 之間使用了阻擋層，可以讓 PMOS 和 NMOS 彼此靠近放置，從而提高晶體管密度并降低 PMOS 和 NMOS 之間的互連 RC。PMOS 和 NMOS 相互堆疊的互補(bǔ)FET (CFET) 顯著減少了 PMOS 和 NMOS 之間的互連，這是因?yàn)榇怪倍询B上的互連比水平布線短得多。當(dāng)可以更好地解決熱和可測(cè)試性挑戰(zhàn)時(shí)，未來(lái)的技術(shù)進(jìn)步可能允許單片制造更多層的 MOSFET（單片 3D 集成）。

總體趨勢(shì)是 CMOS 縮放速度已經(jīng)放緩，根據(jù)IRDS（國(guó)際設(shè)備和系統(tǒng)路線圖）預(yù)計(jì)將在 2034 年達(dá)到極限。隨著晶體管尺寸越來(lái)越小，柵極間距的減小使得源極/漏極更加難以形成良好接觸，從而對(duì)良率和性能調(diào)整提出了更多挑戰(zhàn)。對(duì)于數(shù)字處理器來(lái)說(shuō)，持續(xù)的器件縮放(device scaling)可能有好處，而對(duì)于模擬信號(hào)處理單元（例如 IO、無(wú)線電或高壓電路）來(lái)說(shuō)，保留在較舊的技術(shù)節(jié)點(diǎn)上更好。這就需要異構(gòu)集成。已經(jīng)表明，芯片分解可能有助于提高性能、外形尺寸、成本和上市時(shí)間。在最初成功將 HBM（高帶寬內(nèi)存）堆棧與處理器集成在同一封裝中以滿足 AI/ML 和超級(jí)計(jì)算中的數(shù)據(jù)密集型工作負(fù)載的需求之后，3D-IC 現(xiàn)在正在形成(taking shape for)主要的高性能計(jì)算產(chǎn)品。

在本文中，我們討論了 3D-IC 時(shí)代的互連。第二部分回顧了器件縮放(device scaling)尤其是與器件互聯(lián)相關(guān)的趨勢(shì)和限制。第三部分討論了各種應(yīng)用的芯片到芯片互連，并提供了水平芯片到芯片連接和垂直芯片到芯片堆疊的設(shè)計(jì)解決方案。第 IV 節(jié)側(cè)重于特別是與抖動(dòng)、功率和通道優(yōu)化有關(guān)的互連性能分析。最后在第五節(jié)，討論了一些未來(lái)趨勢(shì)。

II. 器件縮放趨勢(shì)和 3D-IC

CMOS 光刻現(xiàn)在處于亞 10nm級(jí)(sub 10nm space)，發(fā)展向 3nm 及以下?？傮w趨勢(shì)是接觸多晶硅間距 (CPP)、物理柵極長(zhǎng)度 (Lg)、鰭片間距、最小金屬間距 (MP) 和接觸 CD（臨界尺寸）繼續(xù)縮小，但速度較慢。一個(gè)限制因素是源極/漏極間距。如圖 1 所示，由于finFET 或納米片 3D 結(jié)構(gòu) 的接觸面積/間距減小，MOSFET 的源極/漏極的外部電阻以及柵極和源極/漏極之間的側(cè)壁耦合電容和邊緣電容會(huì)隨著特征尺寸的縮小而降低，導(dǎo)致帶寬和功率的改進(jìn)微不足道。對(duì)于模擬應(yīng)用，過(guò)大的柵極、源極和漏極電阻會(huì)降低 gm、ft 和 fmax。由于米勒效應(yīng)，柵極/漏極之間的側(cè)壁電容效應(yīng)更為明顯，它會(huì)影響高速電路的上升/下降時(shí)間，從而對(duì)功耗和抖動(dòng)產(chǎn)生不利影響?？紤]到邏輯設(shè)計(jì)的密度縮放和高速電路的性能要求，可以提供多個(gè)間距，寬間距器件適用于更低的寄生 RC從而使ft更高。還進(jìn)行了器件和技術(shù)的協(xié)同優(yōu)化，以通過(guò)金屬柵極的雙帶來(lái)降低柵極電阻。先進(jìn)節(jié)點(diǎn)后道工藝(back end of line，BEOL)的電阻效應(yīng)并沒(méi)有變得更好。為了解決因積極縮放(aggressive scaling)而導(dǎo)致生產(chǎn)線中端(MEOL)和后道工藝(BEOL)互連電阻率和可靠性的關(guān)鍵和緊急問(wèn)題，該行業(yè)加快步伐在新材料和新工藝方面尋求突破。

圖1.MOSFET中的寄生R&C

簡(jiǎn)而言之，器件縮放會(huì)產(chǎn)生成本，尤其是在模擬、高速 IO 或 RF 電路方面。設(shè)計(jì)成本和制造成本使做單片 SoC 的效率降低。通過(guò)多個(gè)小芯片的封裝集成來(lái)進(jìn)行芯片分解是自然路徑(the natural path）。

由于3D-IC的優(yōu)勢(shì)，主要處理器設(shè)計(jì)供應(yīng)商現(xiàn)在正朝著 3D 芯片集成的方向發(fā)展。3D-IC采用水平連接和垂直堆疊的形式，通過(guò)不同工藝和封裝技術(shù)在較小芯片上制造的計(jì)算核心、加速器、內(nèi)存、緩存、IO、電源管理功能(function)可以像樂(lè)高積木一樣拼湊在一起。每個(gè)功能都針對(duì)功率、性能和面積進(jìn)行了優(yōu)化。我們即將迎來(lái)標(biāo)準(zhǔn)化小芯片接口和 3D 集成流程(flow)。短期內(nèi)，專(zhuān)有解決方案仍然流行。

可以預(yù)見(jiàn)，不同于MOSFET的新技術(shù)將逐漸出現(xiàn)。例如，隧道 FET (TFET) 或電阻式 RAM (RRAM) 等新技術(shù)可能共存或替代現(xiàn)有 DRAM，以降低功耗和泄漏。技術(shù)遷移會(huì)采用進(jìn)化路徑(evolutionary path)演變成另一種功率、熱、帶寬或縮放效率更高的技術(shù)，而不會(huì)突然脫離歷史上非常成功的 MOSFET 技術(shù)。3D-IC加速了RRAM、TFET、碳納米管、光子學(xué)等新技術(shù)的采用。

3D-IC 集成的主要優(yōu)勢(shì)是更好的互連能效，減少訪問(wèn)延遲。3D堆疊允許顯著減少塊間布線距離。在計(jì)算核心附近放置更多內(nèi)存可以讓 CPU 提高性能，因?yàn)榭偛季€長(zhǎng)度減少了，內(nèi)存訪問(wèn)帶寬和延遲也因此大大提高。例如，片外存儲(chǔ)器訪問(wèn)能量約為 10+pJ/bit，訪問(wèn)延遲約為 100ns。由于更高的封裝內(nèi)(in-package)數(shù)據(jù)帶寬，延遲降低了。

3D 集成技術(shù)中有一些成分(ingredients) 可以在各種應(yīng)用中排列形成各種各樣的 2.5D 或 3D 結(jié)構(gòu)。從根本上說(shuō)，這些技術(shù)變體可以分為兩類(lèi)：一是垂直連接，例如晶片上芯片、晶片上晶片，使用 uBump、鍵合或絕緣/硅通孔 (TIV/TSV) 將兩個(gè)不同的芯片連接在一起。水平連接依靠通過(guò)基板或中介層的布線來(lái)連接兩個(gè)芯片。不同的產(chǎn)品采用有機(jī)中介層、硅中介層、硅橋、RDL（重新布線層）over Molding或襯底路線等各種布線介質(zhì)(wiring media)。關(guān)鍵設(shè)計(jì)考慮因素是密度、損耗、串?dāng)_、成本和可制造性。中介層介電常數(shù)、凸塊間距/尺寸、線寬/間距和 TIV/TSV 直徑/高度會(huì)影響互連密度和電氣性能。有機(jī)內(nèi)插器（organic interposer）可實(shí)現(xiàn)更高的帶寬。有源內(nèi)插器（active interposer）可能會(huì)為性能提供額外的好處。

III.低功耗芯片到芯片互連的設(shè)計(jì)

在這里，我們專(zhuān)注于芯片到芯片 (D2D) 互連技術(shù)，以應(yīng)對(duì)芯片間通信的挑戰(zhàn)。D2D 互連設(shè)計(jì)有 3 個(gè)主要的 FOM（品質(zhì)因數(shù)）：線（或面積）帶寬密度、能源效率和延遲。對(duì)于橫向 D2D 連接電路，目前線帶寬密度(shoreline bandwidth density)>1Tbps/mm，并且還在不斷增加。帶寬密度最終受限于芯片幾何形狀的物理約束（例如線寬度和凸塊間距），以及通道插入損耗和串?dāng)_帶來(lái)的性能約束。在水平情況下，我們的目標(biāo)是 1.2-2.0 毫米的通道范圍。更長(zhǎng)的覆蓋范圍是可能的（例如：更低的數(shù)據(jù)速率、通道均衡、有源內(nèi)插器(active interposer)或錯(cuò)誤檢測(cè)和糾正），但代價(jià)是更低的帶寬密度、更長(zhǎng)的處理延遲或更高的功率。對(duì)于垂直 D2D 連接電路，F(xiàn)2F 互連的 D2D 互連長(zhǎng)度幾乎可以忽略不計(jì)，而 F2B 互連的 D2D 互連長(zhǎng)度則低于 100um。下面我們展示了針對(duì)水平集成和垂直集成調(diào)整的兩個(gè) D2D 接口的設(shè)計(jì)，同時(shí)考慮了上述三個(gè) D2D 互連 FOM。

水平 D2D 互連：圖 2（左）是并行 PHY 接口的高級(jí)電路架構(gòu)，在 TSMC 的 N7/N5/N3 工藝中實(shí)現(xiàn)了轉(zhuǎn)發(fā)時(shí)鐘，作為支持水平 D2D 連接的基礎(chǔ) IP。該設(shè)計(jì)以前是通過(guò)N7的測(cè)試芯片實(shí)現(xiàn)的。該系統(tǒng)已經(jīng)過(guò)重新架構(gòu)，以提高客戶(hù)的能源效率和線帶寬密度(shoreline bandwidth density)。硅中介層(silicon interposer)上支持的最大通道長(zhǎng)度可達(dá) 2mm?；締卧Q(chēng)為通道，由1個(gè)公共通道和4個(gè)子通道組成。公共通道包括共享功能，例如時(shí)鐘生成、參考生成和驅(qū)動(dòng)器含義校準(zhǔn)(driver implication calibration)。每個(gè)子通道有 40 個(gè) Tx 通道(lane)和 40 個(gè) Rx 通道，以及一個(gè)時(shí)鐘單元。PHY 支持 2.8-8Gbps 的數(shù)據(jù)速率。這使得每個(gè)通道每個(gè)方向的最大總數(shù)據(jù)帶寬為 1280 Gbps。每個(gè)子通道中的冗余有兩個(gè)額外的通道(lane)。如果在 Tx 和 Rx 鏈路對(duì)之間的任何地方發(fā)生制造缺陷，則可以激活冗余通道來(lái)修復(fù)缺陷。為避免不必要的開(kāi)銷(xiāo)，每 20 個(gè)通道中只有 1 個(gè)缺陷是可修復(fù)的?？梢越貌豢尚迯?fù)的子通道或通道，但同時(shí)要將部分降級(jí)支持更少的數(shù)據(jù)帶寬。時(shí)鐘單元在一個(gè)子通道中的 40 個(gè) Rx 和 40 個(gè) Tx 數(shù)據(jù)通道之間共享。在時(shí)鐘單元中，在 Tx 時(shí)鐘路徑和 Rx 時(shí)鐘路徑中分別有一個(gè) DCC（占空比校正）電路跟隨一個(gè)去偏移環(huán)路(deskew loop)。發(fā)送去偏移環(huán)路(transmit deskew loop)用于將 SoC 時(shí)鐘域與PHY 時(shí)鐘域一致，接收去偏移環(huán)路用于將采樣時(shí)鐘與接收數(shù)據(jù)眼圖中心一致。圖 2（右）是兩個(gè)小芯片之間 D2D 接口的物理實(shí)現(xiàn)，有 3 種可能的配置（4+1、2+1 和 1+1）。首選使用情況是 4+1（4 個(gè)子通道和 1 個(gè)公共通道），這是最節(jié)能的，但也支持 2+1 和 1+1 以滿足對(duì)數(shù)據(jù)帶寬需求不太高的應(yīng)用。凸塊間距為 40 微米。本質(zhì)上，每個(gè) Tx 或 Rx 電路可以占據(jù)一個(gè)凸塊下方的部分區(qū)域。凸塊下方的其余區(qū)域用于時(shí)鐘分配或去耦電容。PHY 的電源從兩側(cè)（圖 2 右圖所示的頂部和底部）提供。用來(lái)支持晶圓級(jí) KGD（已知良好芯片）測(cè)試期間探針卡(probe card)的探針墊(probe-pad)更大。每列有 12 個(gè)信號(hào)凸塊，每個(gè)凸塊運(yùn)行速度高達(dá) 8Gbps。除去用于邊帶握手(side bands handshaking)、通道冗余的一些凸起，每個(gè)通道實(shí)現(xiàn)的線帶寬密度(shoreline bandwidth density)為 1.78Tbps/mm，能效為 0.36pJ/bit，面積為 1440x1010um2。

圖 2. 水平 D2D 互連

（左：電路架構(gòu)，右：通道平面圖）

垂直 D2D 互連：各種 3D 芯片拓?fù)涫强赡艿?。圖3顯示了先進(jìn)3D 集成中的多層芯片堆疊場(chǎng)景。外形尺寸（布線長(zhǎng)度、鍵合間距和 TSV 直徑）變得越來(lái)越緊湊和小。本設(shè)計(jì)中貼片間距為9um。由于減少了 D2D 互連長(zhǎng)度 (<100um)，與水平 D2D 互連相比，通道缺陷更少。每個(gè)通道的數(shù)據(jù)速率增加到 16Gbps。圖 4（左）顯示了 PHY 的架構(gòu)圖。與水平 D2D 互連不同，時(shí)鐘單元現(xiàn)在跨 80 個(gè)數(shù)據(jù)通道共享，公共通道(lane)由兩個(gè)通道(channel)共享。這有效地減少了來(lái)自 PLL 和時(shí)鐘單元的電源開(kāi)銷(xiāo)。每個(gè)通道每個(gè)方向的總最大數(shù)據(jù)帶寬保持為 1280Gbps。由于 PHY 現(xiàn)在受到電路限制（在這種垂直情況下，bond 面積為 81um2，而在水平情況下 ubump 面積為 1600um2），PHY 的平面圖更加緊湊，如圖 4（右）所示，每個(gè) Tx/Rx 通道占用 6 個(gè)鍵 (6*81um2) 的面積?？傮w而言，實(shí)現(xiàn)的面積帶寬密度為 17.9Tbps/mm2，能效為 0.3pJ/bit，每個(gè)通道的面積僅為 378x378um2（不包括 PLL）。

圖 3. 垂直芯片堆疊

圖 4. 垂直芯片到芯片互連

（左：電路架構(gòu)，右：通道平面圖）

IV.電路設(shè)計(jì)和性能優(yōu)化

圖 5 是 Rx、Tx電路和 Rx 參考生成電路。Rx 使用基于傳統(tǒng)感應(yīng)放大器的觸發(fā)器進(jìn)行數(shù)據(jù)采集，參考電壓可通過(guò) 7 位電流 DAC 進(jìn)行調(diào)節(jié)。Tx 驅(qū)動(dòng)器是低壓擺幅 NMOS 驅(qū)動(dòng)器，VDDQ 低至 0.3Volt，以降低驅(qū)動(dòng)器功率和串?dāng)_。

圖 5. Rx 和 Tx 的電路實(shí)現(xiàn)

圖 6 顯示了去偏移環(huán)路(deskew loop)，它由一個(gè)用于 8 相時(shí)鐘生成的 DLL（延遲鎖定環(huán)路）和一個(gè)用于時(shí)鐘相位調(diào)整的 PI（相位內(nèi)插器）組成。DLL 從用于 Tx 的 ADPLL 獲取其輸入時(shí)鐘，并從 Rx_DQS(來(lái)自其他芯片的轉(zhuǎn)發(fā)時(shí)鐘)獲取輸入時(shí)鐘，。來(lái)自 DLL 的 8 相時(shí)鐘饋入 CMOS PI。PI 時(shí)鐘分配給 Tx（或 Rx）的時(shí)鐘樹(shù)，時(shí)鐘樹(shù)的端點(diǎn)也反饋到 PI 控制回路中的 PD，強(qiáng)制時(shí)鐘端點(diǎn)與時(shí)鐘 Φx 相位對(duì)齊。發(fā)送去偏移 DLL 的 Φx 來(lái)自 SoC 時(shí)鐘域，它可能來(lái)自 PHY 中的 ADPLL 或來(lái)自 SoC 中的不同 PLL。接收去偏斜環(huán)路的 Φx 來(lái)自 8 相時(shí)鐘發(fā)生器的 Φ2，以創(chuàng)建與 Rx_DQS 的 90 度相移，從而允許接收時(shí)鐘與 Rx 數(shù)據(jù)眼圖中心對(duì)齊。PI 和 DLL 環(huán)路濾波器以數(shù)字方式實(shí)現(xiàn)。

圖 6. 去偏移環(huán)路(Deskew Loop)

具有延遲 T（T 是 DLL 輸入時(shí)鐘周期時(shí)間）的延遲元件的傳遞函數(shù)可以表示為 exp(-Ts)。圖 7 (a) 是一個(gè)線性化的 DLL，其中明確顯示了延遲元件。從噪聲傳輸?shù)慕嵌葋?lái)看，DLL 是輸入時(shí)鐘噪聲的全通濾波器，在 DLL 帶寬附近有輕微的抖動(dòng)放大。在圖 7 (b) 中，我們提供了一個(gè)更詳細(xì)的 8 相 DLL 模型，其中延遲元件及其控制增益級(jí)分為 8 段。這更準(zhǔn)確地建模了整體抖動(dòng)傳遞函數(shù)。圖 7 (c) 是 PI 控制回路?？梢韵鄳?yīng)地分析整體抖動(dòng)傳遞函數(shù)。圖 8（左）顯示了 8 個(gè)輸出相位vs DLL 輸入相位的抖動(dòng)傳遞函數(shù)。圖 8（右）顯示了 DLL + PI 傳遞函數(shù)的整體抖動(dòng)傳遞，取決于所選的 DLL 相位（Φ1...Φ8）。很明顯，去偏移環(huán)路會(huì)放大抖動(dòng)，從而導(dǎo)致轉(zhuǎn)發(fā)時(shí)鐘系統(tǒng)中的抖動(dòng)跟蹤不完整。理想情況下，如果我們忽略延遲元素（即 exp(-Ts) = 1），則去偏斜環(huán)路是一個(gè)全通濾波器。因此，到去偏移環(huán)路輸入的轉(zhuǎn)發(fā)時(shí)鐘抖動(dòng)（包括隨機(jī)抖動(dòng)和電源抖動(dòng)）將完全由數(shù)據(jù)接收器端的數(shù)據(jù)路徑上的抖動(dòng)跟蹤，正如轉(zhuǎn)發(fā)時(shí)鐘架構(gòu)所期望的那樣。請(qǐng)注意，DLL 和 PI 本身也會(huì)產(chǎn)生噪聲，但噪聲可以忽略不計(jì)，因?yàn)榉聪嗥骶彌_區(qū)的深度僅為約 10 個(gè)反相器深度。DLL 延遲線的電源噪聲由 DLL 高通，由 PI 環(huán)路低通。如果 DLL 和 PI 環(huán)路之間存在帶寬失準(zhǔn)，則 DLL 延遲線上的一些電源噪聲頻譜可能會(huì)泄漏到 PI 輸出。PI 的電源噪聲通過(guò)高通到輸出端。抖動(dòng)影響是相似的?；谏鲜龇治觯瑫r(shí)鐘抖動(dòng)、PVT 偏移和電源下降將主要由去偏移環(huán)路跟蹤。殘余抖動(dòng)，包括抖動(dòng)放大部分、DLL 和 PI 自身產(chǎn)生的 Dj 和 Rj，以及時(shí)鐘和數(shù)據(jù)路徑不匹配導(dǎo)致的 Dj，會(huì)侵蝕眼圖裕度，是系統(tǒng)預(yù)算的一部分，通過(guò)行為仿真建模。

圖 7. 線性模型 (a) 傳統(tǒng) DLL (b) 具有延遲元件的 8 相 DLL 模型 (c) PI 環(huán)路線性模型

圖 8. 去偏移環(huán)路的抖動(dòng)傳輸（左：從 DLL 時(shí)鐘輸入到 8 相輸出的抖動(dòng)，右：整體去偏移環(huán)路抖動(dòng)傳輸）

電源分配網(wǎng)絡(luò)對(duì)電源完整性很重要。必須盡量減少電路板、基板、中介層和芯片上電源網(wǎng)絡(luò)的 IR 壓降。在上電/斷電和電源管理期間，板載、封裝、插入器上(on-interposer)和/或片上去耦電容是抑制電壓紋波所必需的。圖 9 顯示了水平裸片到裸片互連的供電網(wǎng)絡(luò)性能，具有各種去耦電容選項(xiàng)：無(wú)去耦電容、帶有 TDC（頂部裸片電容）、eDTC（嵌入式深溝槽電容器）或 TDC 和 eDTC 的組合?；旧?，包括片上 MOSCAP 和 MOM（金屬氧化物金屬）電容的 TDC 對(duì)高頻噪聲最有效。另一方面，eDTC 的電容密度大約比 MOM（金屬氧化物金屬）電容高 30 倍，但由于更高的 ESR（有效串聯(lián)電阻），可能不具有良好的高頻特性。為了實(shí)現(xiàn) 20mVpp 的目標(biāo)電壓噪聲，eDTC 在此特定設(shè)計(jì)中效率最高。這讓使用更少的片上decap來(lái)縮小 PHY面積成為可能。值得注意的是，如果使用的片上去耦電容不足，則通過(guò)片上 P/G 網(wǎng)絡(luò)的動(dòng)態(tài) IR 壓降可能會(huì)加劇串?dāng)_。圖中未顯示的 MIM（金屬絕緣體金屬）也是不錯(cuò)的decap選擇。其電容密度是 MOM 電容的 3 倍至 10 倍，ESR 位于 TDC 和 eDTC 之間。

圖 9. 不同去耦電容的功率傳輸特性和電源噪聲

通道優(yōu)化是 3D-IC DTCO（設(shè)計(jì)和技術(shù)協(xié)同優(yōu)化）的一部分。用于水平 D2D 互連的封裝（設(shè)計(jì) 1 圖 10）具有高達(dá) 11mVrms ICN（集成串?dāng)_噪聲），F(xiàn)EXT/NEXT 為 -27dB，盡管中介層中有電源/接地屏蔽，如剖面圖所示圖 10。這不是 8Gbps 數(shù)據(jù)速率的問(wèn)題。然而，為了將線帶寬密度(shoreline bandwidth density)提高到 16Gbps 或 32Gbps（眼高和眼寬更加壓縮），需要改善串?dāng)_噪聲。圖 11 顯示了 Design2。添加電源/接地屏蔽凸塊可將串?dāng)_改善 8dB 以上。隨著我們?cè)黾用客ǖ罃?shù)據(jù)速率，線帶寬密度(shoreline bandwidth density)將增加，我們能夠在 28Gbps 通道速率下實(shí)現(xiàn) 7Tbps/mm 的峰值帶寬密度（圖 12）。然而，由于插入損耗和串?dāng)_惡化，高通道速率 (32Gbps) 下的帶寬密度變得更差。在更高的數(shù)據(jù)速率下，我們必須減少通道(lane)深度，這會(huì)降低線吞吐量(shoreline throughput)。

圖 10. D2D 互連串?dāng)_減少（凸塊頂視圖和中介層剖面圖）

圖 11. 串?dāng)_和插入損耗

圖 12.線吞吐量(Shoreline throughput)

由于間距?。ㄋ交ミB為 40um，垂直互連為 9um），因此無(wú)法直接探測(cè)芯片到芯片互連。內(nèi)置自檢電路是檢查電路質(zhì)量的必備工具，包括良率篩選和運(yùn)行裕度。圖 13 顯示了 8Gbps 互連的基于誤碼率的眼圖掃描。在與其他小芯片集成之前用于篩選 KGD（已知良好芯片）的晶圓級(jí)測(cè)試，以及用于篩選 KGS（已知良好系統(tǒng)）的封裝部件測(cè)試是用于硅后驗(yàn)證的 DFT 基礎(chǔ)設(shè)施的一部分。來(lái)自 KGD/GDS 的有缺陷的零件通過(guò)前面提到的冗余通道進(jìn)行修復(fù)。

圖 13.片內(nèi)眼裕量測(cè)試(On die eye margin test)（在 VDD=0.75 和 VDDQ=0.3 時(shí)測(cè)量）

V.討論與結(jié)論

圖14是水平互連和垂直互連的芯片顯微圖。8Gbps 版本是獨(dú)立 IP 驗(yàn)證工具中具有生產(chǎn)價(jià)值的設(shè)計(jì)（相對(duì)于其中的測(cè)試芯片），主要關(guān)注電源和信號(hào)完整性以及通道設(shè)計(jì)協(xié)同優(yōu)化。垂直 D2D 互連設(shè)計(jì)用于復(fù)雜的 3D 堆疊，用于 3D 封裝和工藝 DTCO。

圖 14. 芯片到芯片互連的顯微照片

（左：水平，右：垂直）

圖 15 是上述 8Gbps 水平 D2D 互連的晶圓級(jí) KGD 測(cè)試的電壓和頻率 schmoo 圖。最初，需要將 Vcc_mim 提高到 0.82Volt 才能無(wú)錯(cuò)誤。這是由探針卡針上的電源下降和 IR 下降以及內(nèi)部電源下降（僅影響測(cè)試邏輯）造成的電壓紋波的根本原因。當(dāng)數(shù)據(jù)傳輸活動(dòng)被順序觸發(fā)時(shí)，Vcc_mim 降低到 0.7V。通過(guò)調(diào)整采樣時(shí)鐘位置，可以在 Vcc_min 為 0.64V時(shí)進(jìn)一步提高裕量。實(shí)驗(yàn)室分析表明，探針的 IR 壓降會(huì)消耗 30mV 的電壓裕度。對(duì) 16Gbps 垂直 D2D 互連進(jìn)行了類(lèi)似的裕量測(cè)試（圖 16）。

圖 15. 電壓和頻率 Schmoo 圖 (8Gbps)

圖 16. 電壓和頻率 Schmoo 圖 (16Gbps)

如果 PDN 網(wǎng)絡(luò)不健壯(robust)，供應(yīng)下降可能是一個(gè)嚴(yán)重的性能問(wèn)題，如先前 shmoo 圖中的邊際損失所示。圖 17 顯示了主電壓域上的測(cè)量電流逐漸上升并穩(wěn)定地達(dá)到穩(wěn)定狀態(tài)，沒(méi)有明顯的擾動(dòng)。

圖 17. 通道交錯(cuò)通過(guò)順序激活數(shù)據(jù)通道來(lái)減少電壓紋波

在我們的實(shí)現(xiàn)中，我們對(duì)發(fā)送數(shù)據(jù)接口使用去偏移循環(huán)來(lái)避免額外的 Tx FIFO 延遲。我們能夠?qū)崿F(xiàn) 4ns 的總鏈路延遲。除非我們同步兩個(gè)互連小芯片的時(shí)鐘域，否則我們無(wú)法避免 Rx FIFO。其他類(lèi)型的時(shí)鐘架構(gòu)可用于最小化時(shí)鐘/數(shù)據(jù)路徑失配，同時(shí)減少偏斜和抖動(dòng)影響。

如上所述，垂直芯片到芯片互連不受凸塊限制，不同于水平芯片到芯片互連。隨著晶圓鍵合技術(shù)向更緊密的鍵合間距發(fā)展，更簡(jiǎn)單的互連拓?fù)淇赡鼙鹊?III 節(jié)中介紹的架構(gòu)更加節(jié)能和具有更低延遲。通過(guò)更緊密的鍵合間距和更小的鍵合電容，每條通道(lane)的數(shù)據(jù)速率可以降低到 2Gbps 或更低，從而允許對(duì)芯片到芯片交叉電路使用簡(jiǎn)單的反相器緩沖器，而時(shí)鐘域交叉則使用常規(guī)觸發(fā)器?？梢韵〞r(shí)鐘單元和去偏移環(huán)路在內(nèi)的所有開(kāi)銷(xiāo)。仍然需要降低額定值的 ESD 結(jié)構(gòu)。、盡管每條通道的數(shù)據(jù)速率較低，但由于更高的鍵密度，可以實(shí)現(xiàn)更高的面積帶寬密度和更好的能源效率。在適當(dāng)?shù)臅r(shí)序預(yù)算和跨芯片時(shí)序仿真的幫助下，整個(gè) PHY 接口可以由 CAD 工具自動(dòng)處理。圖 18 顯示了未來(lái) 3DIC 互連的前景。使用的品質(zhì)因數(shù)是帶寬/能量效率比。串行 IO 將覆蓋 2.5D 互連，通道可達(dá)約 2mm。當(dāng)凸塊間距約為 25um 時(shí)，串行 IO 有利于垂直芯片堆疊方案。通過(guò)減小間距和通道范圍 (~100um)，數(shù)字 Lite-IO（即 CMOS 反相器）實(shí)現(xiàn)了 100 倍的帶寬/能效比。

圖 18. 3DIC 互連的前景

總之，我們提出了 3DIC 時(shí)代的設(shè)計(jì)挑戰(zhàn)。CMOS 縮放正在接近其物理極限。3D-IC 是一種使計(jì)算系統(tǒng)能夠分解為不同技術(shù)節(jié)點(diǎn)中的許多小芯片的使能技術(shù)，并且由于減少了互連距離和增加了互連帶寬，還提供了更好的功率、性能、面積和成本方面的好處。我們展示了兩種用于水平和垂直 D2D 集成的互連技術(shù)，具有世界一流的能效和帶寬密度。我們展示了水平 D2D 互連的峰值帶寬密度可以達(dá)到 7Tbps/mm。垂直 D2D 互連的帶寬密度將隨著鍵距的縮小而繼續(xù)增長(zhǎng)。

與現(xiàn)有技術(shù)狀態(tài)的比較如表 1 所示。

表1. 性能比較

聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)發(fā)僅為更大范圍傳播，若有異議請(qǐng)聯(lián)系我們修改或刪除：zhangkai@cgbtek.com

晶圓廠成熟制程之爭(zhēng)，前所未有的激烈

安謀科技發(fā)布兩款自研處理器

国产高潮在线观看视频_一级免费黄色视频_超碰人人青青久久_婷婷玖玖深爱网_高潮颤抖大叫正在播放_伊人亚洲综合网色_久热思思热这里只有国产中文精品_免费阿v网站在线观看g_国产大学生酒店小美女_99天堂视頻網站

新聞中心

公司新聞

行業(yè)新聞

3D芯片時(shí)代，這個(gè)問(wèn)題要重視

3D芯片時(shí)代，這個(gè)問(wèn)題要重視

企業(yè)郵箱:sales@cgbtek.com