極度強悍的 SoC 處理器,NVIDIA Tegra X1 內部功能與架構預覽

作者 | 發布日期 2015 年 01 月 06 日 11:50 | 分類 晶片
Tegra_X1_Die_678x452

大量客製與高效率 GPU 架構帶來的強悍性能。



從 Tegra K1 開始,NVIDIA 將 PC GPU 產品架構下放到行動產品 SoC 上,展示出行動裝置也能有強大 GPU 性能的可能性;但時過境遷,各家廠商也都端出在 GPU 性能上有所成長的新產品,如 APPLE A8x,使得 NVIDIA 也著手布局新世代的 SoC 產品。

在 2014 年發表了使用 ARM Cortex-A15 的 32 bit 四核 TK1,以及使用自製 Denver CPU 的 64 bit 雙核 TK1 以後,在 GTC 路線圖的規劃上還有一顆代號為 Erista 的 SoC。自公布以來對於這顆 SoC 的資料一直還是停留在 Slide 上所提及的 Denver CPU、Maxwell GPU、以及 FinFET 製程這樣的組合而已。

直到 NVIDIA 正式公開了 Erisa SoC 的真面目,發表名為 Tegra X1 的新 SoC。

1GTC2014_Tegra_Roadmap-665x285

當然正式規格就與當年 Slide 的規劃有些不同,Tegra X1 在製程上使用了 TSMC 20nm 製程而不是 FinFET;使用的不是 Denver CPU 而是 Cortex A53、A57 的 big.Little 配置。看起來 X1 比較像是回應對手,可以快速進入市場的功能型產品。

要看到原先 Erista 的配置,可能要期待未來的 Parker SoC,以及 TSMC 製程給不給面子了。

CPU 部分,ARM Cortex-A57 是四核共享 2MB L2,L1 則是各自擁有 32KB DATA + 48KB 指令的配置;ARM Cortex-A53 部分則是 512KB shared L2 與 32 + 32 L1。由於 Denver CPU 已經在 64 bit TK1 有正式的實作,因此 Tegra X1 並沒有使用算是有些出人意表,根據 NVIDIA 官方指出是配合上市時程而做的決定。

X1-CPU-665x374

就算是使用了 ARM Cortex CPU,就如同小孩愛惡作劇般 NVIDIA 還是對此進行改造。這次 X1 在內連匯流排使用了自製的設計,而不是 ARM 的 CCI-400。big.Little 的部分也是捨棄了會將所有核心顯示出來的全域工作排程(global task scheduling),而是改用了 cluster migration 叢集轉移,另外加入了 Cache coherence 快取一至性來改善功耗與性能的表現。

根據 NVIDIA 的數據表示,比起 Exynos 5433,Tegra X1 在同樣功耗下可以達到 1.4 倍性能,或是同性能只需一半的電力表現,當然這也還要算上核心優化以及製成的影響;在功耗控制的部分,NVIDIA 也持續使用了自有的 System EDP management ,而不是 ARM 的 IPA。

整體而言是有相當程度自有化的設計。

GPU 部分則是按照計畫的使用了 Maxwell GPU 架構。Maxwell 架構從設計的初始就有將行動裝置考慮在內,並非先做 PC GPU 再另行 Port 的概念,因此從目前推出的桌面 GM204 GPU 看來,整合了深度的電源優化的確是有著高能源效率的特性,這樣的特色在 Tegra X1 上也是同樣能夠擁有。

Mobile-First-665x343

功能部分,Maxwell GPU 加入了相當多的新功能,使用了更效率的 SMM 單元、第三代的 Delta Color 壓縮引擎對、Conservative Rasterization、以及 MFAA 等新功能也都全面進入 Tegra X1。記憶體匯流排寬度為 64 bit,頻寬部分雖然最簡單的方法就是直接擴張匯流排的寬度,但是這樣子會增加 SoC 的成本以及內部複雜度與功耗,因此 NVIDIA 仍然使用了 64 bit 的 memory bus,另外加上記憶體壓縮以及使用更快速的 LPDDR4 記憶體來補強不足。

MemComp-665x374
DRAM_Efficiency-665x374

在運算單元的部分,Maxwell 架構只提供了 FP32、FP64 兩種,因此在 X1 上也是同樣的設計,但是在 Android 環境內,FP16 指令仍然被大量地使用,甚至在 NVIDIA DRIVE PX 平台內也會使用 FP16 指令來進行影像辨識,來進行精度堪用而且夠快的運算。相對於 ARM 或是 Imagination 對於 FP16 都有獨立單元,還有優化 ALU 分解的做法,NVIDIA 選擇了有點 hack 的設計稱為 “double speed FP16”,大致上的做法是能夠將兩個相同操作的 FP16 包裝成一單一個 2D Vec2 並丟到一個 FP32 單元執行。

FP16Op-665x392

從 GPU 的安排上,Tegra X1 是在單一 GPC 內放入兩組 SMM 單元,總共來到 256 個 CUDA Cores,比起 Tegra K1 的一組 SMX 來說,總數 256 CUDA Cores 自然是比 K1 的 192 有著更強的性能,加上 Maxwell 架構的高效率 CUDA Core 會更拉開距離;另外 Tegra X1 有 16 個材質單元、16 個 ROP 等配置,也都比 TK1 的 8TU、4 ROPs 來的更強悍,性能上估計 FP16 可以達到 1TFLOPS、FP32 則是 512GFLOPS。

X1-GPU-665x374

最後 CPU、GPU 以外的 uncore 部分,前面我們提到的使用 LPDDR4 讓記憶體頻寬由 LPDDR3 的 14.9GB/s 來到了 25.6GB/s,並且提升了 40% 左右的能源效率;視訊輸出的部分也來到了 4KUHD@60Hz,也支援了 HDMI 2.0 與 HDCP 2.2。負責影像處理的 ISP 倒是沒有太大的改變,不過在 JPEG 編碼的性能上大幅提升,從 120MP/s 提升到了 600MP/s,影片編碼能力也更新到了 4K60 H.265 與 VP9,原先就支援的 H.264 也向上支援到 2160p60 的程度。

DRAM_Efficiency-665x374

Tegra X1 帶來了相當大的成長,高度客製化的 CPU 以及高效率的 GPU 都是相當具有可看性,在 K1 上的一些缺失也都有足夠的改進。到時 Tegra X1 的正式登場應該可以給高階 SoC 的競爭更加火熱。

(本文由 VR-Zone 授權轉載;首圖來源:AnandTech) 

發表迴響