擁有20萬GPU的集羣建好了，只用了122天 - asiasworldcity.hk

香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌

本文内容：

如果您希望可以時常見面，歡迎標星收藏哦~來源：本文編譯自tomshardware，謝謝。埃隆·馬斯克的xAI孟菲斯超級集羣一期項目剛剛達到滿負荷運營，現場變電站已投入運營並連接到主電網。據大孟菲斯商會稱，該站點將從孟菲斯電力、燃氣和水務局(MLGW)和田納西河谷管理局(TVA)獲得150兆瓦的電力。除此之外，xAIColossus超級計算機還擁有另外150兆瓦的Megapack電池作爲備用電源，使其能夠在斷電或用電需求增加時持續供電。馬斯克於去年7月首次啓動他的AI集羣，該集羣在單一架構上搭載了10萬塊NvidiaH100GPU。這臺xAI超級計算機的搭建速度非常快，公司只用了19天就將其投入運行——而Nvidia首席執行官黃仁勳表示，這通常需要四年時間。然而，如此快的速度意味着它不得不走一些捷徑，比如在沒有電網供電的情況下啓動，因此該站點使用了大量天然氣渦輪發電機來滿足其電力需求。初步報告稱，該站點內停放了14臺發電機，每臺輸出功率爲2.5兆瓦，但一些居民最近抱怨說，附近發現了超過35臺渦輪機。這一開發意味着該基地一期工程現在可以完全依靠田納西河谷管理局（TVA）的電力運行，TVA約60%的發電量來自水力發電、太陽能、風能和核能等可再生能源。因此，xAI現在將停用約一半曾臨時用於爲Colossus項目供電的發電機——但另一半仍將保留，以滿足孟菲斯超級集羣二期工程的電力需求。不過，我們預計這種情況不會持續太久，因爲第二座變電站預計將於今年秋季投入使用，該變電站將提供另外150兆瓦的電力。這意味着Colossus變電站的總髮電量將達到300兆瓦，足以爲30萬戶家庭供電。這是一箇巨大的電力需求，此前曾有人擔心田納西河谷管理局（TVA）是否有足夠的發電能力來滿足這一需求。電力供應商已向各利益相關方保證，它能夠在不影響其他電力供應的情況下滿足這一需求。Colossus最初於2024年7月推出，搭載10萬塊NvidiaH100芯片，到2025年2月，其GPU數量將翻一番，達到20萬塊。據報道，馬斯克希望將孟菲斯超級集羣的GPU數量擴大到100萬塊，並且他已經在努力籌集資金，以實現這一夢想。然而，在同一地點部署如此多的GPU意味着需要更多的電力——希望田納西河谷管理局(TVA)能夠在不影響孟菲斯超級集羣附近居民電力質量的情況下滿足這一需求。關於Colossus，我所知道的埃隆·馬斯克對各科技領域的宏偉願景如今已聚焦於人工智能(AI)，他創立了xAI公司，致力於AI開發。這項努力的核心是Colossus，它是全球最強大的超級計算機之一，能夠徹底重新定義AI的能力。Colossus的誕生不僅標誌着馬斯克xAI的一項重要成就，也標誌着整個人工智能社區的一項重要成就，該社區希望在該技術的應用中發揮主導作用。xAI由特斯拉和SpaceX首席執行官馬斯克於2023年中期正式成立，目標是“發現現實世界是什麼樣的”。根據其使命宣言，“xAI是一家致力於構建人工智能以加速人類科學發現的公司。我們的使命是增進我們對宇宙的集體理解。”據馬斯克稱，他創立這家公司是因爲他開始擔心不受監管的人工智能的危險。xAI的既定目標是利用人工智能進行科學發現，但方式不具有剝削性。xAI超級計算機旨在推動從機器學習到神經網絡的尖端人工智能研究，計劃使用Colossus訓練大型語言模型（如OpenAI的GPT系列），並將框架擴展到自動機器、機器人和科學模擬等領域。Colossus於2024年9月在田納西州孟菲斯市啓動。該數據中心位於南孟菲斯工業園區內一處前伊萊克斯製造基地。田納西河谷管理局已批准向該電廠提供超過100兆瓦的電力。Colossus系統最初配備了100,000個NvidiaH100GPU，這使其成爲世界上最重要的AI訓練平臺之一。這些GPU在19天內完成部署，凸顯了xAI對快速擴展其AI基礎設施的關注。考慮到配置如此廣泛的基礎設施通常需要數月甚至數年的時間，部署本身引起了媒體和數據中心/人工智能行業的極大關注。最初設置的100,000個GPU使其能夠達到高水平的處理能力，使xAI能夠以尖端速度處理高度複雜的AI模型。鑑於當代人工智能模型的複雜性和規模不斷增加，這種速度和效率至關重要，因爲現代人工智能模型需要輸入大量數據集並使用巨大的計算能力。LLM設計非常類似於“如果你建造它，他們就會來”的模型，其重點是利用可用的處理能力。2024年11月，xAI宣佈將通過一筆數十億美元的交易將Colossus的容量提高一倍。該公司計劃在未來幾年籌集60億美元，其中大部分來自中東主權財富基金。它將涵蓋在現有GPU上添加100,000個GPU的成本，使現有GPU數量達到200,000個。計劃中的升級將添加Nvidia的新款BlackwellH200GPU，其功能比最初推出的H100GPU更加強大。H200GPU在性能和效率方面提供了顯著的提升，並將使xAI能夠更快、更準確地訓練AI模型。這些GPU針對深度學習和神經網絡訓練進行了優化，因此非常適合xAI的大型AI項目。據Nvidia稱，根據工作負載的不同，BlackwellGPU的速度可比上一代GPU快20倍。然而，BlackwellGPU向客戶交付卻遇到了障礙。由於Nvidia發現並修復了一些設計缺陷，下一代芯片的交付時間已經推遲了一箇季度。據報道，Nvidia定製設計的服務器機架中的72GPU配置過熱，因此出現了新的延遲。據雅虎財經報道，儘管尚未確認GB200的2025年交付是否會延遲，而且Nvidia也不願評論服務器機架的最終設計是否已經完成，但該問題的宣佈導致Nvidia股價下跌近3%。這個更大的Colossus基礎設施將使xAI更容易構建和測試其AI模型（特別是GrokLLM）。它們旨在挑戰甚至超越目前佔主導地位的人工智能系統，例如OpenAI的GPT-4和谷歌的Bard。Colossus與其他超級計算機的不同之處不僅在於其底層計算能力，還在於其量身定製的人工智能基礎設施。該系統旨在滿足人工智能訓練的特殊需求——處理大量數據並運行必須並行化的高度先進的算法。據廣泛報道，戴爾科技和超微都與xAI合作打造了這臺超級計算機。NvidiaH100和H200GPU的組合將使Colossus在速度和效率方面佔據明顯優勢。這些GPU還配備專用的張量核心，有助於加速深度學習算法。此外，這些GPU的內存帶寬足夠強大，可以有效處理訓練最新AI模型所需的大數據集。Colossus的主要構建模塊是Supermicro4U通用GPU液冷系統。每臺4U服務器配備8塊NVIDIAH100TensorCoreGPU，爲AI訓練任務提供強大的算力。服務器被組織成機架，每個機架包含八臺4U服務器，每個機架總共64個GPU。每個4U服務器之間都有一箇用於液體冷卻的歧管，佔用1U的機架空間，每個機架的底座包含一箇4UCDU泵送系統，提供冗餘冷卻和管理單元。這些服務器使用NVIDIA的Spectrum-X以太網網絡平臺進行互連，實現了AI訓練所必需的高帶寬、低延遲通信。每臺服務器都配備多箇400GbE連接，運行在支持800GBE的電纜上，而不是Nvidia也支持用於大規模部署的Infiniband選項。在當前架構中，集羣中的每個GPU都配備一箇專用的400GB網絡接口卡，另外還有一箇專用於服務器的400GBENIC，每個服務器的潛在總帶寬爲3.6TB。每個陣列有512個GPU（8個機架，每個機架64個GPU），總共有近200個陣列。10月份，NVIDIA負責人黃仁勳宣佈，最初的100,000個GPU超級計算機僅用19天就搭建完成，而他所說的普通數據中心的建設過程通常需要四年時間。那麼公司利用這些性能做什麼呢？Grok系列大型語言模型是xAI的重點關注對象。這類模型能夠解釋和創建類似人類的文本，就像OpenAI的GPT系列一樣。由於Colossus的計算能力，Grok模型應該比當前的語言模型更有效、更強大。除了語言模型之外，xAI還計劃探索其他AI應用，例如自動駕駛汽車、機器人技術和科學模擬。xAI計劃通過Colossus挑戰AI在這些領域的能力。例如，該公司正在探索在科學領域利用人工智能尋找新材料、節約能源，甚至幫助尋找新藥。（如果您認爲所有這些能力都是爲了讓特斯拉自動駕駛汽車成爲現實，那麼還有一臺完全不同的AI超級計算機專門用於這項任務，即位於特斯拉GigaTexas工廠的擁有50,000個GPU的CortexAI超級集羣。）Colossus還採用了所謂的“尖端冷卻系統”，確保GPU以最穩定、最佳的溫度運行，以實現穩定性和性能。這一點尤其重要，因爲如此大量的快速GPU會產生大量熱量。對於這種類型的機架密度，最佳冷卻絕對至關重要，並且使Blackwell服務器基礎設施因過熱而導致的潛在延遲變得更容易理解。由於像Colossus這樣的客戶都急於大量推出下一代設計，因此冷卻系統從一開始就必須正常工作。正如我們之前報道的那樣，許多供應商正在與Nvidia合作，專門爲NvidiaGPU服務器開發冷卻系統。雖然我們已經報道了數據中心液體冷卻領域的許多供應商，但該領域另一家快速發展的公司Boyd上週宣佈，他們推出了一款產品，可以“藉助Nvidia的GB200NVL72增強AI部署的簡易性和速度”。這是爲72GPU集羣中的下一代BlackwellGPU設計的服務器硬件。Boyd首席執行官DougBritt指出，他們的液冷技術專爲人工智能設計，解決瞭如何冷卻這些高要求應用程序和硬件的問題，同時簡化了部署並使其更快地啓動和運行。Britt補充道：我們看到，下一代大型語言模型的參數已超過1萬億，需要先進的計算能力，例如NVIDIAGB200NVL72平臺所提供的能力，而更高水平的冷卻技術則可進一步增強其性能。AI系統架構師依靠Boyd冷卻技術，以最節能的方式有效擴展計算密度，而無需擴大數據中心和機架空間。過去幾年，創建最有效的人工智能系統的競爭日益激烈，谷歌、微軟和OpenAI大力投資超級計算機和人工智能研究。通過對Colossus的投資，xAI具有潛在的競爭優勢，使其能夠快速訓練其AI模型，並可能比競爭對手更快地取得突破。大規模模型訓練不僅縮短了構建新AI技術所需的時間，而且還可以幫助xAI深入研究由於計算限制而無法實現的新AI研究領域。通過籌集資金來擴大Colossus的規模，xAI正在爲未來做好準備。新增的10萬塊GPU將使系統的物理容量幾乎翻倍，這將使xAI能夠應對更大的挑戰。與此同時，Nvidia聲稱GB200GPU的性能提升遠超現有的H100部件，這並非簡單的數學意義上的性能提升。這可能會對AI社區產生深遠的影響，xAI的發展將爲重新定義AI技術的應用提供機會。Colossus項目並非一帆風順。爲一箇擁有20萬個GPU的系統提供冷卻和供電的成本非常高昂，尤其是在可持續性成爲首要關注點的當下。此外，馬斯克表示，他預計Colossus擴建所需的資金將依賴於主權財富基金，尤其是來自中東的基金。該計劃受到了一些方面的批評，有人認爲，外國擁有新的人工智能技術可能會產生地緣政治後果，特別是如果它被應用於研究角色之外的實際用途。https://www.tomshardware.com/tech-industry/artificial-intelligence/musks-colossus-is-fully-operational-with-200-000-gpus-backed-by-tesla-batteries-phase-2-to-consume-300-mw-enough-to-power-300-000-homes半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅爲了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4028期內容，歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID：icbank喜歡我們的內容就點“在看”分享給小夥伴哦

(本文内容不代表本站观点。)
---------------------------------