I.引言
自 1959 年 MOSFET 和 1963 年 CMOS 發(fā)明以來(lái),CMOS 電路成為低功耗電池供電應(yīng)用(如數(shù)字手表和便攜式儀器)的首選技術(shù)。隨后,光刻技術(shù)(lithography scaling) 使CMOS踏入高性能計(jì)算的競(jìng)爭(zhēng)行列中。Dennard 1974年對(duì)CMOS 縮放(CMOS scaling)原理的總結(jié)根據(jù)摩爾定律進(jìn)一步為微電子行業(yè)提供了科學(xué)的縮放(scaling)方向。然而,到 2005 年,平面 MOSFET的亞閾值泄漏阻止了 Vth、Vdd 和頻率按比例縮放,這很大程度上打破了Dennard 縮放原理(scaling principle)。雙柵極 (SOI) 和三柵極 (FinFET) 的發(fā)明使通道得到了更好的控制,從而載流子不會(huì)逃逸到襯底。環(huán)柵(例如:納米線(xiàn)和納米片)MOSFET 的溝道被柵電極包圍,具有更好的靜電控制,從而減少了泄漏并提高了載流子遷移率。使用多納米片,單位面積內(nèi)的有效寬度W (W_eff) 也得到改善,與 FinFet 器件相比,允許適度的密度縮放。業(yè)界即將對(duì) CMOS 縮放(CMOS scaling)進(jìn)行更多改進(jìn)。ForkFET 在 PMOS 和 NMOS 之間使用了阻擋層,可以讓 PMOS 和 NMOS 彼此靠近放置,從而提高晶體管密度并降低 PMOS 和 NMOS 之間的互連 RC。PMOS 和 NMOS 相互堆疊的互補(bǔ)FET (CFET) 顯著減少了 PMOS 和 NMOS 之間的互連,這是因?yàn)榇怪倍询B上的互連比水平布線(xiàn)短得多。當(dāng)可以更好地解決熱和可測(cè)試性挑戰(zhàn)時(shí),未來(lái)的技術(shù)進(jìn)步可能允許單片制造更多層的 MOSFET(單片 3D 集成)。 總體趨勢(shì)是 CMOS 縮放速度已經(jīng)放緩,根據(jù)IRDS(國(guó)際設(shè)備和系統(tǒng)路線(xiàn)圖)預(yù)計(jì)將在 2034 年達(dá)到極限。隨著晶體管尺寸越來(lái)越小,柵極間距的減小使得源極/漏極更加難以形成良好接觸,從而對(duì)良率和性能調(diào)整提出了更多挑戰(zhàn)。對(duì)于數(shù)字處理器來(lái)說(shuō),持續(xù)的器件縮放(device scaling)可能有好處,而對(duì)于模擬信號(hào)處理單元(例如 IO、無(wú)線(xiàn)電或高壓電路)來(lái)說(shuō),保留在較舊的技術(shù)節(jié)點(diǎn)上更好。這就需要異構(gòu)集成。已經(jīng)表明,芯片分解可能有助于提高性能、外形尺寸、成本和上市時(shí)間。在最初成功將 HBM(高帶寬內(nèi)存)堆棧與處理器集成在同一封裝中以滿(mǎn)足 AI/ML 和超級(jí)計(jì)算中的數(shù)據(jù)密集型工作負(fù)載的需求之后,3D-IC 現(xiàn)在正在形成(taking shape for)主要的高性能計(jì)算產(chǎn)品。 在本文中,我們討論了 3D-IC 時(shí)代的互連。第二部分回顧了器件縮放(device scaling)尤其是與器件互聯(lián)相關(guān)的趨勢(shì)和限制。第三部分討論了各種應(yīng)用的芯片到芯片互連,并提供了水平芯片到芯片連接和垂直芯片到芯片堆疊的設(shè)計(jì)解決方案。第 IV 節(jié)側(cè)重于特別是與抖動(dòng)、功率和通道優(yōu)化有關(guān)的互連性能分析。最后在第五節(jié),討論了一些未來(lái)趨勢(shì)。 II. 器件縮放趨勢(shì)和 3D-IC
CMOS 光刻現(xiàn)在處于亞 10nm級(jí)(sub 10nm space),發(fā)展向 3nm 及以下??傮w趨勢(shì)是接觸多晶硅間距 (CPP)、物理柵極長(zhǎng)度 (Lg)、鰭片間距、最小金屬間距 (MP) 和接觸 CD(臨界尺寸)繼續(xù)縮小,但速度較慢。一個(gè)限制因素是源極/漏極間距。如圖 1 所示,由于finFET 或納米片 3D 結(jié)構(gòu) 的接觸面積/間距減小,MOSFET 的源極/漏極的外部電阻以及柵極和源極/漏極之間的側(cè)壁耦合電容和邊緣電容會(huì)隨著特征尺寸的縮小而降低,導(dǎo)致帶寬和功率的改進(jìn)微不足道。對(duì)于模擬應(yīng)用,過(guò)大的柵極、源極和漏極電阻會(huì)降低 gm、ft 和 fmax。由于米勒效應(yīng),柵極/漏極之間的側(cè)壁電容效應(yīng)更為明顯,它會(huì)影響高速電路的上升/下降時(shí)間,從而對(duì)功耗和抖動(dòng)產(chǎn)生不利影響??紤]到邏輯設(shè)計(jì)的密度縮放和高速電路的性能要求,可以提供多個(gè)間距,寬間距器件適用于更低的寄生 RC從而使ft更高。還進(jìn)行了器件和技術(shù)的協(xié)同優(yōu)化,以通過(guò)金屬柵極的雙帶來(lái)降低柵極電阻。先進(jìn)節(jié)點(diǎn)后道工藝(back end of line,BEOL)的電阻效應(yīng)并沒(méi)有變得更好。為了解決因積極縮放(aggressive scaling)而導(dǎo)致生產(chǎn)線(xiàn)中端(MEOL)和后道工藝(BEOL)互連電阻率和可靠性的關(guān)鍵和緊急問(wèn)題,該行業(yè)加快步伐在新材料和新工藝方面尋求突破。
圖1.MOSFET中的寄生R&C 簡(jiǎn)而言之,器件縮放會(huì)產(chǎn)生成本,尤其是在模擬、高速 IO 或 RF 電路方面。設(shè)計(jì)成本和制造成本使做單片 SoC 的效率降低。通過(guò)多個(gè)小芯片的封裝集成來(lái)進(jìn)行芯片分解是自然路徑(the natural path)。 由于3D-IC的優(yōu)勢(shì),主要處理器設(shè)計(jì)供應(yīng)商現(xiàn)在正朝著 3D 芯片集成的方向發(fā)展。3D-IC采用水平連接和垂直堆疊的形式,通過(guò)不同工藝和封裝技術(shù)在較小芯片上制造的計(jì)算核心、加速器、內(nèi)存、緩存、IO、電源管理功能(function)可以像樂(lè)高積木一樣拼湊在一起。每個(gè)功能都針對(duì)功率、性能和面積進(jìn)行了優(yōu)化。我們即將迎來(lái)標(biāo)準(zhǔn)化小芯片接口和 3D 集成流程(flow)。短期內(nèi),專(zhuān)有解決方案仍然流行。 可以預(yù)見(jiàn),不同于MOSFET的新技術(shù)將逐漸出現(xiàn)。例如,隧道 FET (TFET) 或電阻式 RAM (RRAM) 等新技術(shù)可能共存或替代現(xiàn)有 DRAM,以降低功耗和泄漏。技術(shù)遷移會(huì)采用進(jìn)化路徑(evolutionary path)演變成另一種功率、熱、帶寬或縮放效率更高的技術(shù),而不會(huì)突然脫離歷史上非常成功的 MOSFET 技術(shù)。3D-IC加速了RRAM、TFET、碳納米管、光子學(xué)等新技術(shù)的采用。 3D-IC 集成的主要優(yōu)勢(shì)是更好的互連能效,減少訪(fǎng)問(wèn)延遲。3D堆疊允許顯著減少塊間布線(xiàn)距離。在計(jì)算核心附近放置更多內(nèi)存可以讓 CPU 提高性能,因?yàn)榭偛季€(xiàn)長(zhǎng)度減少了,內(nèi)存訪(fǎng)問(wèn)帶寬和延遲也因此大大提高。例如,片外存儲(chǔ)器訪(fǎng)問(wèn)能量約為 10+pJ/bit,訪(fǎng)問(wèn)延遲約為 100ns。由于更高的封裝內(nèi)(in-package)數(shù)據(jù)帶寬,延遲降低了。 3D 集成技術(shù)中有一些成分(ingredients) 可以在各種應(yīng)用中排列形成各種各樣的 2.5D 或 3D 結(jié)構(gòu)。從根本上說(shuō),這些技術(shù)變體可以分為兩類(lèi):一是垂直連接,例如晶片上芯片、晶片上晶片,使用 uBump、鍵合或絕緣/硅通孔 (TIV/TSV) 將兩個(gè)不同的芯片連接在一起。水平連接依靠通過(guò)基板或中介層的布線(xiàn)來(lái)連接兩個(gè)芯片。不同的產(chǎn)品采用有機(jī)中介層、硅中介層、硅橋、RDL(重新布線(xiàn)層)over Molding或襯底路線(xiàn)等各種布線(xiàn)介質(zhì)(wiring media)。關(guān)鍵設(shè)計(jì)考慮因素是密度、損耗、串?dāng)_、成本和可制造性。中介層介電常數(shù)、凸塊間距/尺寸、線(xiàn)寬/間距和 TIV/TSV 直徑/高度會(huì)影響互連密度和電氣性能。有機(jī)內(nèi)插器(organic interposer)可實(shí)現(xiàn)更高的帶寬。有源內(nèi)插器(active interposer)可能會(huì)為性能提供額外的好處。 III.低功耗芯片到芯片互連的設(shè)計(jì)
在這里,我們專(zhuān)注于芯片到芯片 (D2D) 互連技術(shù),以應(yīng)對(duì)芯片間通信的挑戰(zhàn)。D2D 互連設(shè)計(jì)有 3 個(gè)主要的 FOM(品質(zhì)因數(shù)):線(xiàn)(或面積)帶寬密度、能源效率和延遲。對(duì)于橫向 D2D 連接電路,目前線(xiàn)帶寬密度(shoreline bandwidth density)>1Tbps/mm,并且還在不斷增加。帶寬密度最終受限于芯片幾何形狀的物理約束(例如線(xiàn)寬度和凸塊間距),以及通道插入損耗和串?dāng)_帶來(lái)的性能約束。在水平情況下,我們的目標(biāo)是 1.2-2.0 毫米的通道范圍。更長(zhǎng)的覆蓋范圍是可能的(例如:更低的數(shù)據(jù)速率、通道均衡、有源內(nèi)插器(active interposer)或錯(cuò)誤檢測(cè)和糾正),但代價(jià)是更低的帶寬密度、更長(zhǎng)的處理延遲或更高的功率 。對(duì)于垂直 D2D 連接電路,F(xiàn)2F 互連的 D2D 互連長(zhǎng)度幾乎可以忽略不計(jì),而 F2B 互連的 D2D 互連長(zhǎng)度則低于 100um。下面我們展示了針對(duì)水平集成和垂直集成調(diào)整的兩個(gè) D2D 接口的設(shè)計(jì),同時(shí)考慮了上述三個(gè) D2D 互連 FOM。 水平 D2D 互連:圖 2(左)是并行 PHY 接口的高級(jí)電路架構(gòu),在 TSMC 的 N7/N5/N3 工藝中實(shí)現(xiàn)了轉(zhuǎn)發(fā)時(shí)鐘,作為支持水平 D2D 連接的基礎(chǔ) IP。該設(shè)計(jì)以前是通過(guò)N7的測(cè)試芯片實(shí)現(xiàn)的。該系統(tǒng)已經(jīng)過(guò)重新架構(gòu),以提高客戶(hù)的能源效率和線(xiàn)帶寬密度(shoreline bandwidth density)。硅中介層(silicon interposer)上支持的最大通道長(zhǎng)度可達(dá) 2mm?;締卧Q(chēng)為通道,由1個(gè)公共通道和4個(gè)子通道組成。公共通道包括共享功能,例如時(shí)鐘生成、參考生成和驅(qū)動(dòng)器含義校準(zhǔn)(driver implication calibration)。每個(gè)子通道有 40 個(gè) Tx 通道(lane)和 40 個(gè) Rx 通道,以及一個(gè)時(shí)鐘單元。PHY 支持 2.8-8Gbps 的數(shù)據(jù)速率。這使得每個(gè)通道每個(gè)方向的最大總數(shù)據(jù)帶寬為 1280 Gbps。每個(gè)子通道中的冗余有兩個(gè)額外的通道(lane)。如果在 Tx 和 Rx 鏈路對(duì)之間的任何地方發(fā)生制造缺陷,則可以激活冗余通道來(lái)修復(fù)缺陷。為避免不必要的開(kāi)銷(xiāo),每 20 個(gè)通道中只有 1 個(gè)缺陷是可修復(fù)的。可以禁用不可修復(fù)的子通道或通道,但同時(shí)要將部分降級(jí)支持更少的數(shù)據(jù)帶寬。時(shí)鐘單元在一個(gè)子通道中的 40 個(gè) Rx 和 40 個(gè) Tx 數(shù)據(jù)通道之間共享。在時(shí)鐘單元中,在 Tx 時(shí)鐘路徑和 Rx 時(shí)鐘路徑中分別有一個(gè) DCC(占空比校正)電路跟隨一個(gè)去偏移環(huán)路(deskew loop)。發(fā)送去偏移環(huán)路(transmit deskew loop)用于將 SoC 時(shí)鐘域與PHY 時(shí)鐘域一致,接收去偏移環(huán)路用于將采樣時(shí)鐘與接收數(shù)據(jù)眼圖中心一致。圖 2(右)是兩個(gè)小芯片之間 D2D 接口的物理實(shí)現(xiàn),有 3 種可能的配置(4+1、2+1 和 1+1)。首選使用情況是 4+1(4 個(gè)子通道和 1 個(gè)公共通道),這是最節(jié)能的,但也支持 2+1 和 1+1 以滿(mǎn)足對(duì)數(shù)據(jù)帶寬需求不太高的應(yīng)用。凸塊間距為 40 微米。本質(zhì)上,每個(gè) Tx 或 Rx 電路可以占據(jù)一個(gè)凸塊下方的部分區(qū)域。凸塊下方的其余區(qū)域用于時(shí)鐘分配或去耦電容。PHY 的電源從兩側(cè)(圖 2 右圖所示的頂部和底部)提供。用來(lái)支持晶圓級(jí) KGD(已知良好芯片)測(cè)試期間探針卡(probe card)的探針墊(probe-pad)更大。每列有 12 個(gè)信號(hào)凸塊,每個(gè)凸塊運(yùn)行速度高達(dá) 8Gbps。除去用于邊帶握手(side bands handshaking)、通道冗余的一些凸起,每個(gè)通道實(shí)現(xiàn)的線(xiàn)帶寬密度(shoreline bandwidth density)為 1.78Tbps/mm,能效為 0.36pJ/bit,面積為 1440x1010um2。
圖 2. 水平 D2D 互連 (左:電路架構(gòu),右:通道平面圖) 垂直 D2D 互連:各種 3D 芯片拓?fù)涫强赡艿?。圖3顯示了先進(jìn)3D 集成中的多層芯片堆疊場(chǎng)景。外形尺寸(布線(xiàn)長(zhǎng)度、鍵合間距和 TSV 直徑)變得越來(lái)越緊湊和小。本設(shè)計(jì)中貼片間距為9um。由于減少了 D2D 互連長(zhǎng)度 (<100um),與水平 D2D 互連相比,通道缺陷更少。每個(gè)通道的數(shù)據(jù)速率增加到 16Gbps。圖 4(左)顯示了 PHY 的架構(gòu)圖。與水平 D2D 互連不同,時(shí)鐘單元現(xiàn)在跨 80 個(gè)數(shù)據(jù)通道共享,公共通道(lane)由兩個(gè)通道(channel)共享。這有效地減少了來(lái)自 PLL 和時(shí)鐘單元的電源開(kāi)銷(xiāo)。每個(gè)通道每個(gè)方向的總最大數(shù)據(jù)帶寬保持為 1280Gbps。由于 PHY 現(xiàn)在受到電路限制(在這種垂直情況下,bond 面積為 81um2,而在水平情況下 ubump 面積為 1600um2),PHY 的平面圖更加緊湊,如圖 4(右)所示,每個(gè) Tx/Rx 通道 占用 6 個(gè)鍵 (6*81um2) 的面積??傮w而言,實(shí)現(xiàn)的面積帶寬密度為 17.9Tbps/mm2,能效為 0.3pJ/bit,每個(gè)通道的面積僅為 378x378um2(不包括 PLL)。 圖 3. 垂直芯片堆疊 圖 4. 垂直芯片到芯片互連 (左:電路架構(gòu),右:通道平面圖)
IV.電路設(shè)計(jì)和性能優(yōu)化 圖 5 是 Rx、Tx電路和 Rx 參考生成電路。Rx 使用基于傳統(tǒng)感應(yīng)放大器的觸發(fā)器進(jìn)行數(shù)據(jù)采集,參考電壓可通過(guò) 7 位電流 DAC 進(jìn)行調(diào)節(jié)。Tx 驅(qū)動(dòng)器是低壓擺幅 NMOS 驅(qū)動(dòng)器,VDDQ 低至 0.3Volt,以降低驅(qū)動(dòng)器功率和串?dāng)_。
圖 5. Rx 和 Tx 的電路實(shí)現(xiàn) 圖 6 顯示了去偏移環(huán)路(deskew loop),它由一個(gè)用于 8 相時(shí)鐘生成的 DLL(延遲鎖定環(huán)路)和一個(gè)用于時(shí)鐘相位調(diào)整的 PI(相位內(nèi)插器)組成。DLL 從用于 Tx 的 ADPLL 獲取其輸入時(shí)鐘,并從 Rx_DQS(來(lái)自其他芯片的轉(zhuǎn)發(fā)時(shí)鐘)獲取輸入時(shí)鐘,。來(lái)自 DLL 的 8 相時(shí)鐘饋入 CMOS PI。PI 時(shí)鐘分配給 Tx(或 Rx)的時(shí)鐘樹(shù),時(shí)鐘樹(shù)的端點(diǎn)也反饋到 PI 控制回路中的 PD,強(qiáng)制時(shí)鐘端點(diǎn)與時(shí)鐘 Φx 相位對(duì)齊。發(fā)送去偏移 DLL 的 Φx 來(lái)自 SoC 時(shí)鐘域,它可能來(lái)自 PHY 中的 ADPLL 或來(lái)自 SoC 中的不同 PLL。接收去偏斜環(huán)路的 Φx 來(lái)自 8 相時(shí)鐘發(fā)生器的 Φ2,以創(chuàng)建與 Rx_DQS 的 90 度相移,從而允許接收時(shí)鐘與 Rx 數(shù)據(jù)眼圖中心對(duì)齊。PI 和 DLL 環(huán)路濾波器以數(shù)字方式實(shí)現(xiàn)。
圖 6. 去偏移環(huán)路(Deskew Loop) 具有延遲 T(T 是 DLL 輸入時(shí)鐘周期時(shí)間)的延遲元件的傳遞函數(shù)可以表示為 exp(-Ts)。圖 7 (a) 是一個(gè)線(xiàn)性化的 DLL,其中明確顯示了延遲元件。從噪聲傳輸?shù)慕嵌葋?lái)看,DLL 是輸入時(shí)鐘噪聲的全通濾波器,在 DLL 帶寬附近有輕微的抖動(dòng)放大。在圖 7 (b) 中,我們提供了一個(gè)更詳細(xì)的 8 相 DLL 模型,其中延遲元件及其控制增益級(jí)分為 8 段。這更準(zhǔn)確地建模了整體抖動(dòng)傳遞函數(shù)。圖 7 (c) 是 PI 控制回路。可以相應(yīng)地分析整體抖動(dòng)傳遞函數(shù)。圖 8(左)顯示了 8 個(gè)輸出相位vs DLL 輸入相位的抖動(dòng)傳遞函數(shù)。圖 8(右)顯示了 DLL + PI 傳遞函數(shù)的整體抖動(dòng)傳遞,取決于所選的 DLL 相位(Φ1...Φ8)。很明顯,去偏移環(huán)路會(huì)放大抖動(dòng),從而導(dǎo)致轉(zhuǎn)發(fā)時(shí)鐘系統(tǒng)中的抖動(dòng)跟蹤不完整。理想情況下,如果我們忽略延遲元素(即 exp(-Ts) = 1),則去偏斜環(huán)路是一個(gè)全通濾波器。因此,到去偏移環(huán)路輸入的轉(zhuǎn)發(fā)時(shí)鐘抖動(dòng)(包括隨機(jī)抖動(dòng)和電源抖動(dòng))將完全由數(shù)據(jù)接收器端的數(shù)據(jù)路徑上的抖動(dòng)跟蹤,正如轉(zhuǎn)發(fā)時(shí)鐘架構(gòu)所期望的那樣。請(qǐng)注意,DLL 和 PI 本身也會(huì)產(chǎn)生噪聲,但噪聲可以忽略不計(jì),因?yàn)榉聪嗥骶彌_區(qū)的深度僅為約 10 個(gè)反相器深度。DLL 延遲線(xiàn)的電源噪聲由 DLL 高通,由 PI 環(huán)路低通。如果 DLL 和 PI 環(huán)路之間存在帶寬失準(zhǔn),則 DLL 延遲線(xiàn)上的一些電源噪聲頻譜可能會(huì)泄漏到 PI 輸出。PI 的電源噪聲通過(guò)高通到輸出端。抖動(dòng)影響是相似的?;谏鲜龇治?,時(shí)鐘抖動(dòng)、PVT 偏移和電源下降將主要由去偏移環(huán)路跟蹤。殘余抖動(dòng),包括抖動(dòng)放大部分、DLL 和 PI 自身產(chǎn)生的 Dj 和 Rj,以及時(shí)鐘和數(shù)據(jù)路徑不匹配導(dǎo)致的 Dj,會(huì)侵蝕眼圖裕度,是系統(tǒng)預(yù)算的一部分,通過(guò)行為仿真建模。
圖 7. 線(xiàn)性模型 (a) 傳統(tǒng) DLL (b) 具有延遲元件的 8 相 DLL 模型 (c) PI 環(huán)路線(xiàn)性模型 圖 8. 去偏移環(huán)路的抖動(dòng)傳輸(左:從 DLL 時(shí)鐘輸入到 8 相輸出的抖動(dòng),右:整體去偏移環(huán)路抖動(dòng)傳輸) 電源分配網(wǎng)絡(luò)對(duì)電源完整性很重要。必須盡量減少電路板、基板、中介層和芯片上電源網(wǎng)絡(luò)的 IR 壓降。在上電/斷電和電源管理期間,板載、封裝、插入器上(on-interposer)和/或片上去耦電容是抑制電壓紋波所必需的。圖 9 顯示了水平裸片到裸片互連的供電網(wǎng)絡(luò)性能,具有各種去耦電容選項(xiàng):無(wú)去耦電容、帶有 TDC(頂部裸片電容)、eDTC(嵌入式深溝槽電容器)或 TDC 和 eDTC 的組合?;旧?,包括片上 MOSCAP 和 MOM(金屬氧化物金屬)電容的 TDC 對(duì)高頻噪聲最有效。另一方面,eDTC 的電容密度大約比 MOM(金屬氧化物金屬)電容高 30 倍,但由于更高的 ESR(有效串聯(lián)電阻),可能不具有良好的高頻特性。為了實(shí)現(xiàn) 20mVpp 的目標(biāo)電壓噪聲,eDTC 在此特定設(shè)計(jì)中效率最高。這讓使用更少的片上decap來(lái)縮小 PHY面積成為可能。值得注意的是,如果使用的片上去耦電容不足,則通過(guò)片上 P/G 網(wǎng)絡(luò)的動(dòng)態(tài) IR 壓降可能會(huì)加劇串?dāng)_。圖中未顯示的 MIM(金屬絕緣體金屬)也是不錯(cuò)的decap選擇。其電容密度是 MOM 電容的 3 倍至 10 倍,ESR 位于 TDC 和 eDTC 之間。
圖 9. 不同去耦電容的功率傳輸特性和電源噪聲 通道優(yōu)化是 3D-IC DTCO(設(shè)計(jì)和技術(shù)協(xié)同優(yōu)化)的一部分。用于水平 D2D 互連的封裝(設(shè)計(jì) 1 圖 10)具有高達(dá) 11mVrms ICN(集成串?dāng)_噪聲),F(xiàn)EXT/NEXT 為 -27dB,盡管中介層中有電源/接地屏蔽,如剖面圖所示圖 10。這不是 8Gbps 數(shù)據(jù)速率的問(wèn)題。然而,為了將線(xiàn)帶寬密度(shoreline bandwidth density)提高到 16Gbps 或 32Gbps(眼高和眼寬更加壓縮),需要改善串?dāng)_噪聲。圖 11 顯示了 Design2。添加電源/接地屏蔽凸塊可將串?dāng)_改善 8dB 以上。隨著我們?cè)黾用客ǖ罃?shù)據(jù)速率,線(xiàn)帶寬密度(shoreline bandwidth density)將增加,我們能夠在 28Gbps 通道速率下實(shí)現(xiàn) 7Tbps/mm 的峰值帶寬密度(圖 12)。然而,由于插入損耗和串?dāng)_惡化,高通道速率 (32Gbps) 下的帶寬密度變得更差。在更高的數(shù)據(jù)速率下,我們必須減少通道(lane)深度,這會(huì)降低線(xiàn)吞吐量(shoreline throughput)。 圖 10. D2D 互連串?dāng)_減少(凸塊頂視圖和中介層剖面圖) 圖 11. 串?dāng)_和插入損耗 圖 12.線(xiàn)吞吐量(Shoreline throughput) 由于間距?。ㄋ交ミB為 40um,垂直互連為 9um),因此無(wú)法直接探測(cè)芯片到芯片互連。內(nèi)置自檢電路是檢查電路質(zhì)量的必備工具,包括良率篩選和運(yùn)行裕度。圖 13 顯示了 8Gbps 互連的基于誤碼率的眼圖掃描。在與其他小芯片集成之前用于篩選 KGD(已知良好芯片)的晶圓級(jí)測(cè)試,以及用于篩選 KGS(已知良好系統(tǒng))的封裝部件測(cè)試是用于硅后驗(yàn)證的 DFT 基礎(chǔ)設(shè)施的一部分。來(lái)自 KGD/GDS 的有缺陷的零件通過(guò)前面提到的冗余通道進(jìn)行修復(fù)。
圖 13.片內(nèi)眼裕量測(cè)試(On die eye margin test)(在 VDD=0.75 和 VDDQ=0.3 時(shí)測(cè)量)
V.討論與結(jié)論 圖14是水平互連和垂直互連的芯片顯微圖。8Gbps 版本是獨(dú)立 IP 驗(yàn)證工具中具有生產(chǎn)價(jià)值的設(shè)計(jì)(相對(duì)于其中的測(cè)試芯片),主要關(guān)注電源和信號(hào)完整性以及通道設(shè)計(jì)協(xié)同優(yōu)化。垂直 D2D 互連設(shè)計(jì)用于復(fù)雜的 3D 堆疊,用于 3D 封裝和工藝 DTCO。
圖 14. 芯片到芯片互連的顯微照片 (左:水平,右:垂直) 圖 15 是上述 8Gbps 水平 D2D 互連的晶圓級(jí) KGD 測(cè)試的電壓和頻率 schmoo 圖。最初,需要將 Vcc_mim 提高到 0.82Volt 才能無(wú)錯(cuò)誤。這是由探針卡針上的電源下降和 IR 下降以及內(nèi)部電源下降(僅影響測(cè)試邏輯)造成的電壓紋波的根本原因。當(dāng)數(shù)據(jù)傳輸活動(dòng)被順序觸發(fā)時(shí),Vcc_mim 降低到 0.7V。通過(guò)調(diào)整采樣時(shí)鐘位置,可以在 Vcc_min 為 0.64V時(shí)進(jìn)一步提高裕量。實(shí)驗(yàn)室分析表明,探針的 IR 壓降會(huì)消耗 30mV 的電壓裕度。對(duì) 16Gbps 垂直 D2D 互連進(jìn)行了類(lèi)似的裕量測(cè)試(圖 16)。
圖 15. 電壓和頻率 Schmoo 圖 (8Gbps) 圖 16. 電壓和頻率 Schmoo 圖 (16Gbps) 如果 PDN 網(wǎng)絡(luò)不健壯(robust),供應(yīng)下降可能是一個(gè)嚴(yán)重的性能問(wèn)題,如先前 shmoo 圖中的邊際損失所示。圖 17 顯示了主電壓域上的測(cè)量電流逐漸上升并穩(wěn)定地達(dá)到穩(wěn)定狀態(tài),沒(méi)有明顯的擾動(dòng)。
圖 17. 通道交錯(cuò)通過(guò)順序激活數(shù)據(jù)通道來(lái)減少電壓紋波 在我們的實(shí)現(xiàn)中,我們對(duì)發(fā)送數(shù)據(jù)接口使用去偏移循環(huán)來(lái)避免額外的 Tx FIFO 延遲。我們能夠?qū)崿F(xiàn) 4ns 的總鏈路延遲。除非我們同步兩個(gè)互連小芯片的時(shí)鐘域,否則我們無(wú)法避免 Rx FIFO。其他類(lèi)型的時(shí)鐘架構(gòu)可用于最小化時(shí)鐘/數(shù)據(jù)路徑失配,同時(shí)減少偏斜和抖動(dòng)影響。 如上所述,垂直芯片到芯片互連不受凸塊限制,不同于水平芯片到芯片互連。隨著晶圓鍵合技術(shù)向更緊密的鍵合間距發(fā)展,更簡(jiǎn)單的互連拓?fù)淇赡鼙鹊?III 節(jié)中介紹的架構(gòu)更加節(jié)能和具有更低延遲。通過(guò)更緊密的鍵合間距和更小的鍵合電容,每條通道(lane)的數(shù)據(jù)速率可以降低到 2Gbps 或更低,從而允許對(duì)芯片到芯片交叉電路使用簡(jiǎn)單的反相器緩沖器,而時(shí)鐘域交叉則使用常規(guī)觸發(fā)器??梢韵〞r(shí)鐘單元和去偏移環(huán)路在內(nèi)的所有開(kāi)銷(xiāo)。仍然需要降低額定值的 ESD 結(jié)構(gòu)。、盡管每條通道的數(shù)據(jù)速率較低,但由于更高的鍵密度,可以實(shí)現(xiàn)更高的面積帶寬密度和更好的能源效率。在適當(dāng)?shù)臅r(shí)序預(yù)算和跨芯片時(shí)序仿真的幫助下,整個(gè) PHY 接口可以由 CAD 工具自動(dòng)處理。圖 18 顯示了未來(lái) 3DIC 互連的前景。使用的品質(zhì)因數(shù)是帶寬/能量效率比。串行 IO 將覆蓋 2.5D 互連,通道可達(dá)約 2mm。當(dāng)凸塊間距約為 25um 時(shí),串行 IO 有利于垂直芯片堆疊方案。通過(guò)減小間距和通道范圍 (~100um),數(shù)字 Lite-IO(即 CMOS 反相器)實(shí)現(xiàn)了 100 倍的帶寬/能效比。 圖 18. 3DIC 互連的前景 總之,我們提出了 3DIC 時(shí)代的設(shè)計(jì)挑戰(zhàn)。CMOS 縮放正在接近其物理極限。3D-IC 是一種使計(jì)算系統(tǒng)能夠分解為不同技術(shù)節(jié)點(diǎn)中的許多小芯片的使能技術(shù),并且由于減少了互連距離和增加了互連帶寬,還提供了更好的功率、性能、面積和成本方面的好處。我們展示了兩種用于水平和垂直 D2D 集成的互連技術(shù),具有世界一流的能效和帶寬密度。我們展示了水平 D2D 互連的峰值帶寬密度可以達(dá)到 7Tbps/mm。垂直 D2D 互連的帶寬密度將隨著鍵距的縮小而繼續(xù)增長(zhǎng)。 與現(xiàn)有技術(shù)狀態(tài)的比較如表 1 所示。 表1. 性能比較
聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)發(fā)僅為更大范圍傳播,若有異議請(qǐng)聯(lián)系我們修改或刪除:zhangkai@cgbtek.com
COPYRIGHT北京華林嘉業(yè)科技有限公司 版權(quán)所有 京ICP備09080401號(hào)