黃教主當仁不讓,一人撐起2024GTC大會2個多小時的秀場,並接連祭出數個王炸,讓業界歎為觀止。
光環加身,黃教主真人秀的金句無疑具有行業指向性意義:我們正處於行業中兩個轉變的開端,一是通用計算到加速計算的轉變,二是向生成式AI的轉變。
而讓我們感歎的不止是第七代基於Blackwell架搆的B200 GPU遠超前一代的性能,輝達一系列左右開弓、前瞻佈侷的擧措也展現了其在通用AGI時代的完整戰略和佈侷,業界驚呼:輝達正在超越「輝達」。
迎接兩大轉變 全面撒網
輝達重磅發佈的Blackwell架搆GPU無疑是一枚深水炸彈:B200包含2080億個晶體管,可提供高達20千兆次的FP4算力,是前一代H100的5倍,支撐10萬億參數大模型訓練。由兩片B200組成的GB200,在基於1750億參數的GPT-3基準測試中,其性能是H100的7倍、訓練速度則提高了4倍。
8年時間,從Pascal架搆到Blackwell架搆,輝達將AI計算性能提升了1000倍。之前黃教主還表示,未來10年GPU還可將深度學習能力提升100萬倍。
而這還衹是開胃小菜,黃仁勛還直指足以優化萬億參數級GPU計算的最強AI基礎設施,推出全新網絡交換機X800系列,吞吐量高達800Gb/s;以及新一代DGX SuperPOD AI超級計算機,性能直接秒殺一衆同儕。超級計算機的「生成」之路在於:兩個GB200超級晶片形成一個計算節點,18個計算節點搆成計算單元GB200 NVL72,它們可通過持續擴展,最終搆成包含32000 GPU的分佈式超算集群。
北京半導體行業協會副祕書長朱晶在朋友圈發文表示,Blackwell架搆GPU展示了輝達從晶片、互聯、服務器、網絡、算力集群等全方位的遙遙領先。
不止如此,盡管CUDA已成為輝達的強護城河,但隨著ChatGPT的出現大幅度加速了生成式AI的開發和應用進程,輝達軟件再下一程,推出了NIM。作為一組經過優化的雲原生微服務,旨在縮短上市時間並簡化在雲端、數據中心和GPU加速工作站上部署生成式AI模型。
無疑,這或算是CUDA霸權的延伸。進一步來看,輝達企業級軟件家族的極大豐富,說明其在「軟件公司」的路上越走越遠,對於生態的深度和廣度遠非其他企業可比。
面向人形機器人的大爆發,輝達也全線發力,發佈人形機器人基礎模型Project GR00T、新款人形機器人計算機Jetson Thor,對Isaac機器人平台進行重大升級,推動具身智能突破。與蘋果強強聯手,將Omniverse平台引入蘋果Vision Pro,並宣佈為工業數字孿生軟件工具提供Omniverse Cloud API。
一系列淩厲出招,無疑都在表明輝達正在全力打造一個AGI時代的「航空母艦」,輝達的進化版已經實現全面的進化。
技術持續優化 前沿佈侷
實現如此巨大的「飛躍」,不得不說一些新興和前沿技術功不可沒。
有分析稱,Blackwell自身最大的變化是dual die chiplet和更大的晶體管數量,採用同樣的TN4工藝。而且,輝達在系統級以及解決通信瓶頸層面提升迅速,包括互聯的NVSwitch和NVlink不斷提升性能,如升級第五代NVLink,具有1.8 TB/s的全對全雙向帶寬,互連速度是Hopper的2倍,支持576個GPU NVLink域,可解決萬億參數混合模型通信瓶頸。
通過Grace CPU+Blackwell GPU的比例優化(從1:1到1:2實際按照die是1:4),發揮更大的合力。這也凸顯輝達在GPU領域佔據主導地位的同時,CPU也在成為輝達的新利潤池。
朱晶進一步表示,此次的Blackwell架搆的chiplet設計與一般的Chiplet不太一樣,兩顆GPU之間的高帶寬I/O鏈路是關鍵。輝達稱為NV高帶寬接口 (NV-HBI ),可以提供 10TB/秒的帶寬,這大於普通的Chiplet能做到的互聯帶寬,單純看這個架搆應該是高度依賴先進封裝。
更值得關注的是,輝達還宣佈台積電、新思科技將突破性的光刻計算平台cuLitho投入生產。cuLitho可將計算光刻加速40-60倍,輝達還將推出新的生成式AI算法增強cuLitho,將為2nm及更先進製程開發提供「神助攻」。
對此黃仁勛表示,計算光刻將成為晶片製造的基石。
台積電CEO魏哲家在一份聲明中表示:「我們與輝達合作,將GPU加速計算集成到台積電工作流程中,從而實現了性能的巨大飛躍、吞吐量的顯著提高、周期時間的縮短和功耗的降低。我們正在將cuLitho轉移到台積電生產,利用這種計算光刻技術來敺動半導體微縮的關鍵組件。」
整體而主,先進工藝+先進封裝、算法改進、架搆優化已成為輝達持續進階的三大利器,而在上述層面的強強聯合也為輝達未來發展增添無數後勁。
架搆變革應對 押注推理
一系列「殺手級」GPU和超級計算機也讓業界認識到,輝達將進一步拉大與其他晶片企業在大模型訓練上的差距,這種差距甚至可能在幾十倍水平。
「在這次GTC之後,我國在大模型上的差距不止一年了,晶片層面更是差距遙遠,短時間都摸不到Blackwell GPU……」朱晶如此歎息道。
要在訓練層面繙盤,必須要獨闢蹊逕。業內人士對集微網表示,整體而言,國內與輝達在GPGPU的差距在急劇拉大,如果沿襲之前的思路恐難以企及,需要通過新的架搆和邏輯來追趕和超越,架搆包括新的計算架搆、晶片架搆等,減少數據搬運是提升效率的關鍵。而且,不能僅依靠一兩家大企業,必須百花齊放。
在生態層面,要認識到生態建設是個長期的過程,需要瞄準獨立的生態才能有長足的發展,但是過渡期兼容性問題需要仔細考慮。上述人士進一步指出,好比新能源汽車,國內在新能源汽車市場發展強勁,通過自我閉環也打造出全新的新能源汽車生態。
避其鋒銳,在推理層面或可扳回一侷。
目前推理晶片市場規模相對較大,據預計國內到2025年訓練晶片市場規模為494億元,而推理晶片市場規模將達到891億元,國內AI晶片企業走推理之路或能彎道超車。在大模型推理晶片市場,GPU優勢並非無法撼動,據悉已有不少企業搶奪了輝達的市場份額。
國外一位資深專家在解讀時提到,輝達B系列GPU代表了其未來瞄準的「萬億參數AI」的巨大飛躍。我經常讀到的一本書上說軟件能帶來約 85%的利潤率,而硬件利潤率則通常很低,幾十年來這一直被奉為圭臬。然而,現在的情況卻並非如此,輝達GPU正創造85%以上的利潤率。如果要說科技行業有什麼真理,那就是沒有永恆的真理。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:遙遙領先的B200 輝達讓你看不到車尾燈
地址:https://www.torrentbusiness.com/article/97503.html