了解三大挑戰,克服 AI 晶片可靠度設計難關

作者 | 發布日期 2020 年 08 月 11 日 12:49 | 分類 AI 人工智慧 , IC 設計 , 晶片 line share follow us in feedly line share
了解三大挑戰,克服 AI 晶片可靠度設計難關


COVID-19 在 2020 年上半年佔據了全世界的版面,在疫情被各國控制下,2020 年下半年,可以感受到各項防疫措施都逐步放寬。然而在 COVID-19 疫苗開發出來之前,仍然必須戒慎恐懼。談到防疫與藥物開發,近來 AI 技術在 COVID-19 上的「熱影像辨識防疫」、「病毒基因變異與疫情數據分析」及「候選藥物篩選」扮演重要角色,提供快速數據分析能力。

AI 技術是透過模擬人腦的類神經網路,經過深度學習,取得物件特徵參數,產生模擬人腦的判斷能力。這看似很艱深的 AI 技術,其實早已進入大眾的日常生活,包括手機語音輸入辨識能力,幾乎達真人辨識水準即是一例子。

除了演算法與大數據的演進與支援之外,硬體方面,AI 晶片依不同的應用領域,不斷往高效能、高頻寬或低耗電等特性演進(參見表一),因此晶片硬體效能不斷提升,更是支持 AI 應用領域不斷進步的必要因素。

▲表一: AI 晶片應用種類

AI 運用在 COVID-19 防疫上,其晶片的可靠度與效能是重要關鍵。由於 AI 雲端運算晶片具有高功耗特點,AI 終端運算晶片則有低電壓的特點。然而這些特點,不僅會影響 AI 晶片的效能與壽命,甚至,也造成 AI 晶片可靠度試驗設計手法、設備等,也面臨極大挑戰。宜特可靠度驗證實驗室,歸納以下三大挑戰:

一、雲端 AI 晶片的超高功耗挑戰:熱消散與熱平衡能力

資料中心的雲端 AI 晶片,肩負人工智慧的深度學習任務,必須提高效能運算,也因此將耗費大量電能,其單一顆晶片耗電量甚至超過 200W(瓦),伴隨產生的高熱,將使得晶片老化速度加劇。

因此,一年必須連續工作 365 天的雲端運算 AI 晶片,對老化產生的可靠度問題更需審慎評估。

可靠度測試原理必須抽樣(sampling)一定數量的 IC 做實驗,來預估整個母體的生命週期與故障機率。通常抽樣的數量為 77 顆,當 77 顆百瓦的晶片一起在一台可靠度系統設備做 1000 小時的可靠度測試時,上萬瓦的功率熱能,將嚴格考驗可靠度測試系統的熱消散與熱平衡能力。

唯有精準的熱消散與熱平衡能力,才能讓每一顆晶片在執行各種不同運算模式時,晶片都能維持穩定的 Junction 溫度(Tj)(PN 接面溫度),如此才能夠準確預估 IC 的生命週期。因此,高效能雲端 AI 晶片所產能的熱能,如何消散與控制,將是 IC 可靠度實驗設計面臨的挑戰。

二、終端 AI 晶片的超低電壓挑戰:多組系統電源需求,挑戰可靠度測試極限

終端 AI 晶片因其應用環境的特殊性,除了運算效能外,還被要求低耗電,例如行動裝置、IoT、無人機、電動車自動駕駛輔助等,皆需仰賴電池供電。

雖然半導體製程不斷進步,相同邏輯閘數下的動態電流越來越省電,但是由於尺寸微縮的物理特性效應下,電晶體靜態漏電流卻反而增加,摩爾定律每兩年電晶體面積縮減一半的好處,並無法讓晶片的功耗密度減半,相同面積的晶片將會消耗比以往更大的電流。

故為了降低功耗,除了低工作電壓設計外,多工作電壓與多閘極電壓的設計普遍可見。然而,對於可靠度測試系統而言,動輒 10 組以上的系統電源需求,將挑戰可靠度設備電源數目的極限。

同時 1V 或甚至低於 1V 的 core power(主電源)低工作電壓,將使得 IC power margin (餘裕度)越來越小,電路板上的 power IR drop(電壓降)或者 power ripple(漣波),將容易造成 IC 可靠度測試出錯,因此規劃一個終端 AI 晶片的 HTOL 可靠度測試環境,從設備選擇、PCB 電路板模擬與製作,以及各種細節與設計上的考量,必須大幅嚴謹於ㄧ般邏輯 IC。

三、異質整合挑戰:熱消散路徑複雜化

異質整合(heterogeneous integration)是 AI 晶片一項重要的趨勢,為了加快不同晶片間的傳輸頻寬,不同製程的晶片被整合在一個封裝內,常見如 HBM/Sensor/MEMS/Antenna 等,經由 TSV/RDL/bump/interposer 等製程手法,讓各個晶片並排或堆疊起來(圖一),這將大幅度提升異質晶片間的資料傳遞效率與得到更低的耗電。

但是,越複雜的堆疊架構,熱產生與熱消散路徑將複雜化,例如較大功耗晶片不一定位在封裝中心位置,各個晶片厚度可能不盡相同,將使得晶片產生的熱消散與熱感測方式不同於傳統封裝,如何在可靠度測試時正確量測與監控晶片溫度變得更加複雜。

▲圖一:異質整合晶片

綜上所述,如何面對熱消散與熱平衡能力、測試系統的電壓極限、以及異質整合的熱消散路徑複雜化,是在做可靠度設計驗證時,必須克服的挑戰。對此,宜特可靠度驗證實驗室提出如下建議。

利用液態冷卻系統(Liquid cooling system),穩定控制高功耗 AI 晶片產生的熱能

散熱設計功率(thermal design power,簡稱 TDP)是 CPU 晶片對主機板「散熱能力」的要求規格,目前台式電腦 CPU 的 TDP 規格最高在 150 瓦(W)左右,電競玩家為了維持 CPU 長時間高效高頻工作,往往升級主機板、散熱片、風扇等等配件,使得升級後的系統散熱能力高於 TDP 要求,讓 CPU 能長時間高頻工作,而不會發生過熱降頻甚至休眠等問題。

但是伺服器及 HPC 等雲端 AI 晶片,當前 TDP 規格已達 200W 以上超高發熱功耗。而晶片因封裝結構與材料等因素,已難以使用空氣對流當散熱媒介將晶片 junction 溫度控制在目標值。

尤其可靠度測試要求的目標溫度在 125°C,遠高於台式電腦的  70°C,通常 125°C 時晶片功耗牆已處於解鎖狀態,故一不小心極可能造成晶片高溫燒毀。 因此,當如此高功耗的IC做高溫可靠度測試時,測試系統必須提供更快速的熱消散能力。

宜特可靠度驗證實驗室的解法是,利用更高效的液態冷卻控制調節系統(Liquid cooling system),搭配客製化液態循環 socket(圖二),此系統利用液態熱交換速率優於氣態的特性,以及即時監控晶片溫度與調節液態流速等方法,穩定控制超高功耗 AI 晶片產生的熱能,成功收集可靠度實驗數據。

        ▲圖二:  液態冷卻系統(Liquid cooling socket)(圖片來源:Enplas)

測試電路板電源層超前模擬,免去生產組裝後效能不符

AI 晶片採用先進製程,超低的工作電壓已來到 1V 以下。然而,當高電流經過電路板走線時,容易在電路板上產生由低到高的壓降(DC IR drop)(圖三),IR drop 將壓低原本已超低的工作電壓,容易使得AI晶片因電源電壓餘裕度(Power Voltage Margin)不足而失效。

此外,當 IC power 抽載大電流時,也會產生各種頻率的 SSN(simultaneous switching noise)。

而電路板的電源層阻抗(Power plane impedance),在各種不同抽載頻率下,因本身佈線(Layout)因素可能反映出高低不一的阻抗(impedance)值(圖四)當阻抗值在某個頻率下超越目標值時,就會造成嚴重雜訊(power AC noise)與漣波(power ripple)也會使得 AI 晶片因電源雜訊餘裕度(power noise margin)不足而失效。

如何解 ? 以宜特可靠度實驗室為例,目前有許多佈線(layout)輔助設計工具,可以在可靠度電路板設計初期經由軟體分析模擬,調整電源走線長短寬窄、灌孔點大小與數目、解偶合(decoupling)電容值與放置位置等,改善 IR drop 與 power plane impedance 等問題,避免掉測試電路板生產組裝完成後,才面臨效能不符問題。

    ▲圖三:  IR drop simulation

▲圖四:  power plane impedance simulation

客製化治具,貼合高低不同的裸晶(die)

AI 異質整合晶片,裏頭的裸晶(die)高低不同,因此,在可靠度驗證測試的治具準備,必須依照不同的晶片,客製化 IC socket(測試座)和散熱系統(Heat Sink)和熱感測元件(Sensor),才能夠緊密貼合高低不同的裸晶(die),藉此增加熱消散能力,溫度量測與監控才能更準確(圖五)。

 ▲圖五:客製化 IC 測試 socket

Thermal diode 監控電路,監控 IC 本體溫度

雲端 AI 晶片的超高功耗,在進行可靠度測試時,容易因晶片本體溫度波動太快導致無法及時消散熱能,造成產品非預期性故障,例如熱失控(Thermal Runaway),因此,當 IC 內建 thermal diode 元件時,iST 可靠度系統與可靠度測試板設計,可以客製化 thermal diode 監控電路,來監控 IC 內部溫度,將可監測到最即時與準確的 junction 溫度(圖六)。

此作法反應速度快,搭配前面提到的高效液態冷卻控制調節系統,更適合超高功耗 AI 晶片快速溫度變化,藉以提供即時熱消散動作。此外 thermal diode 監控電路,可針對 3D 封裝的多晶體(multi-chip)結構下,獨立量測出各個晶片的溫度,以達到更精確的可靠度數據收集。

    ▲圖六: IC thermal diode 監控電路例子

宜特可靠度驗證實驗室從早期面對一般消費型晶片、車用晶片、5G 晶片,到至今的 AI 晶片,有相當多的實戰經驗,來解決可靠度試驗設計時,面臨 AI 超高功率、超低電壓,以及異質整合等問題,可以提供您精確的溫度電壓等可靠度測試數據,提升 AI 晶片的可靠度。

本文與各位長久以來支持宜特的您,分享檢測驗證經驗,若您想要進一步了解 AI 晶片的解決方案挑戰與圖表,請回信給宜特,宜特將手刀奉上一張由可靠度驗證實驗室精心製作的圖表,讓您秒懂面對不同種的AI晶片的可靠度設計驗證挑戰,可以選用何種解決方案,請洽 +886-3-579-9909 分機 1068 邱小姐│Email: marketing_tw@istgroup.com

(首圖來源:Shutterstock)
(圖片來源:宜特科技)