晶片、系統和軟體的特性使NVIDIA GPU成為機器學習的理想選擇,享有性能和效率,受到數百萬人的青睞。
GPU被稱為人工智慧的稀土金屬——甚至是黃金——因為它們是當今生成式AI時代的基礎。
有三個技術原因,以及許多故事,解釋了這一點。每個原因都有多個值得探索的方面,但從高層次來看:
- GPU採用並行處理。
- GPU系統可擴展至超級計算的高度。
- GPU的AI軟體堆棧既廣泛又深入。
結果是,GPU在技術計算上比CPU更快、更具能源效率。這意味著它們為AI訓練和推理提供領先的性能,以及在使用加速計算的各種應用中的增益。
在其最近的AI報告中,史丹佛的以人為中心的AI小組提供了一些背景。GPU性能“自2003年以來增加了大約7000倍”,性價比“增加了5600倍”。
該報告還引用了Epoch的分析,這是一個獨立的研究小組,測量和預測AI進展。
“GPU是加速機器學習工作負載的主導計算平台,過去五年中大多數(如果不是全部)最大的模型都是在GPU上訓練的……[它們]因此對AI的最近進展做出了核心貢獻,”Epoch在其網站上表示。
一項2020年為美國政府評估AI技術的研究得出了相似的結論。
“我們預計[領先的]AI晶片在計算生產和運營成本時,比領先節點的CPU便宜一到三個數量級,”它說。
NVIDIA的GPU在過去十年中將AI推理的性能提高了1000倍,該公司首席科學家Bill Dally在Hot Chips的一次主題演講中說,這是一年一度的半導體和系統工程師聚會。
ChatGPT傳播消息
ChatGPT提供了一個強有力的例子,展示了GPU如何非常適合AI。這個大型語言模型(LLM),在數千個NVIDIA GPU上訓練和運行,運行著由超過1億人使用的生成式AI服務。
自2018年推出以來,MLPerf——AI的行業標準基準——提供了詳細數據,展示了NVIDIA GPU在AI訓練和推理上的領先性能。
例如,NVIDIA Grace Hopper Superchips在最新一輪的推理測試中實現了全面勝出。自那次測試以來發布的NVIDIA TensorRT-LLM推理軟件,提供了高達8倍的性能提升,以及超過5倍的能源使用和總擁有成本的降低。實際上,自從2019年該基準發布以來,NVIDIA GPU贏得了MLPerf訓練和推理測試的每一輪。
在2月,NVIDIA GPU在推理方面交付了領先的結果,在STAC-ML Markets基準測試中每秒提供數千次推理,這是金融服務行業的一個關鍵技術性能衡量標準。
RedHat軟件工程團隊在博客中簡潔地表示:“GPU已成為人工智慧的基石。”
AI的內部機制
深入瞭解顯示了為什麼GPU和AI是強大的組合。
AI模型,也被稱為神經網絡,本質上是由一層又一層的線性代數方程組成的數學千層麵。每個方程表示一條數據與另一條數據相關的可能性。
就GPU而言,它們擁有成千上萬的核心,這些小型計算器並行工作,切割構成AI模型的數學。這就是AI計算工作的高層次概述。
高度調整的Tensor核心
隨著時間的推移,NVIDIA的工程師已經根據AI模型的演變需求調整了GPU核心。最新的GPU包括Tensor核心,其處理神經網絡使用的矩陣數學的能力比第一代設計強大60倍。
此外,NVIDIA Hopper Tensor Core GPU包括一個Transformer引擎,可以自動調整到處理轉換器模型所需的最佳精度,轉換器模型是生成生成式AI的神經網絡類別。
在此過程中,每一代GPU都增加了更多的記憶體和優化技術,以將整個AI模型存儲在單個GPU或一組GPU中。
模型增長,系統擴展
AI模型的複雜性每年驚人地擴展10倍。
當前的最先進LLM,GPT-4,包含超過一萬億個參數,這是其數學密度的一個衡量指標。這比2018年一個流行的LLM的參數少於1億。
GPU系統通過結合挑戰保持了同步。它們可以擴展到超級計算機,多虧了它們快速的NVLink互連和NVIDIA Quantum InfiniBand網絡。
例如,DGX GH200,一個大記憶體AI超級計算機,將多達256個NVIDIA GH200 Grace Hopper Superchips結合成一個數據中心大小的GPU,擁有144TB的共享記憶體。
每個GH200超級芯片是一個單獨的伺服器,擁有72個Arm Neoverse CPU核心和四千萬億次的AI性能。一種新的四路Grace Hopper系統配置將在單個計算節點中放入令人驚嘆的288個Arm核心和16千萬億次的AI性能,以及高達2.3TB的高速記憶體。
並且在11月宣布的NVIDIA H200 Tensor Core GPU中,包含高達288GB最新的HBM3e記憶體技術。
軟體覆蓋整個領域
自2007年以來,一個不斷擴大的GPU軟體海洋已經演變出來,以支持AI的每個方面,從深層技術特性到高層次應用。
NVIDIA AI平台包括數百個軟體庫和應用程式。CUDA編程語言和cuDNN-X深度學習庫提供了一個基礎,開發人員在其上創建了軟體,如NVIDIA NeMo,一個框架,讓用戶構建、定制和運行他們自己的生成式AI模型。
其中許多元素都作為開源軟體提供,這是軟體開發人員的即插即用基本。超過一百個這樣的元素被打包進NVIDIA AI企業平台,為需要完整安全性和支持的公司提供服務。它們越來越多地也可作為API和服務,通過主要的雲服務提供商在NVIDIA DGX Cloud上提供。
SteerLM,NVIDIA GPU的最新AI軟體更新之一,讓用戶在推理過程中對模型進行微調。
2008年的一篇論文記錄了一個成功故事,這篇論文來自AI先驅Andrew Ng,當時是史丹佛的研究人員。使用兩個NVIDIA GeForce GTX 280 GPU,他的三人團隊在處理一個具有1億參數的AI模型時實現了比CPU快70倍的速度,完成了過去需要幾週才能完成的工作,在一天內完成。
“現代圖形處理器遠遠超過了多核CPU的計算能力,並有可能革新深度非監督學習方法的應用性,”他們報告說。
在2015年NVIDIA GTC的一次演講中,Ng描述了他如何繼續使用更多GPU來擴大他的工作,在Google Brain和百度運行更大的模型。後來,他幫助創立了Coursera,一個在線教育平台,在那裡他教授了數十萬AI學生。
Ng將Geoff Hinton列為他影響的人之一。“我記得去找Geoff Hinton說看看CUDA,我認為它可以幫助構建更大的神經網絡,”他在GTC演講中說。
多倫多大學的教授傳播了這一消息。“2009年,我記得在NIPS(現在是NeurIPS)上發表演講,我告訴大約1000名研究人員他們都應該購買GPU,因為GPU將是機器學習的未來,”Hinton在一份新聞報導中說。
GPU的快速發展
預計AI的收益將在全球經濟中產生波動。
麥肯錫在六月的報告中估計,生成式AI可能每年為它分析的63個使用案例的行業(如銀行、醫療保健和零售)增加相當於2.6萬億至4.4萬億美元。因此,不足為奇的是,史丹佛的2023年AI報告指出,大多數商業領袖預計將增加他們在AI上的投資。
如今,超過40,000家公司使用NVIDIA GPU進行AI和加速計算,吸引了全球400萬開發人員的社群。他們一起在推進科學、醫療保健、金融和幾乎所有行業。
在最新的成就中,NVIDIA描述了使用AI為減緩氣候變化而實現的驚人的700,000倍加速,方法是阻止二氧化碳進入大氣層(見下面的視頻)。這是NVIDIA將GPU的性能應用於AI及其他方面的眾多方式之一。
資料來源