A Colossus egy hatalmas szuperszámítógép, amely az xAI memphisi létesítményében (valójában egy átalakított Electrolux gyárban) működik. A GPU-k száma alapján a világ legnagyobb mesterséges intelligencia szuperszámítógépének számít. Jelenleg több mint 200 000 Nvidia GPU-val, elsősorban H100-as és H200-as GPU-kkal működik, és a tervek szerint 1 millió GPU-ra bővül.
Állítólag legalább egy nagyságrenddel nagyobb, mint legközelebbi versenytársai. Igazak ezek az állítások?
Nos, összehasonlításképpen egy Meta AI Research SuperCluster (RSC) 24.576 Nvidia H100 GPU-val rendelkezik. A Meta AI jelenleg két ilyen klaszterrel és mintegy 16.000 A100 GPU-val rendelkezik. De úgy tűnik, hogy nem használják őket együtt. Tehát, ha a nyers elméleti teljesítményről van szó, a Meta AI legalább tízszeresen lemarad az xAI mögött.
Aztán itt vannak az Nvidia DGX SuperPOD klaszterei. A DGX SuperPOD-ok moduláris, rack-alapú AI szuperszámítógépek. Általában körülbelül 32 DGX (Deep GPU Xceleration) rendszerből állnak, de ennél nagyobb konfigurációk is lehetségesek. A DGX H100 rendszer, a legújabb DGX arany standardjuk, nyolc Nvidia H100 GPU-t tartalmaz 640GB VRAM-mal.
A Microsoft, az OpenAI számítási gerince, DGX SuperPOD-okat használ az Azure-ban. A DGX H100 és B200 szuperpodjaikat az OpenAI közelgő modelljeihez skálázták. Emlékszem egy régi esettanulmányra, amely szerint a DGX A100 SuperPOD-ok 175 milliárd paraméteres modelleket (mint a GPT-3) képeztek ki hetek alatt. Tehát ezek az újabb superpodok biztosan eléggé vadak!
Az Nvidia egyébként saját bemutató DGX SuperPOD riggel rendelkezik, Nvidia Eos néven. Ez 10.752 H100 GPU-val eléri a 43.000 petaflopot.
És végül, de nem utolsósorban itt vannak a Google TPU-klaszterei. Ezeket a klasztereket használták a Gemini és az Imagen modellek betanításához. A Cloud TPU v5p, a legújabb munkagépük, egy 8.960 TPU-val rendelkező klaszter.
A Google teljes TPU-számát 50.000-100.000-re becsülik, több mint 20 régió több klaszterében elosztva, nem pedig egyetlen helyre koncentrálva, mint a Colossus. Így a legjobb esetben is elérhetik a 15.000-20.000 petaflopsot. Ez messze elmarad a Colossus 800.000+ FP8 petaflopos teljesítményétől.
Úgy tűnik, a Colossus méltó a nevéhez…
Hogyan sikerült az xAI-nak és Elon Musknak létrehoznia a Colossust? A dolog mindössze 122 nap alatt jutott el a koncepciótól az üzemképes állapotig. Ha hinni lehet nekik, a Twitteren több bejegyzés is a klaszter első komponenseinek március végén érkezett meg, és július közepén már működött a munkaterhelés. Ez abszurd módon gyors.
Most pedig az felépítésre fogok koncentrálni.
Az xAI Colossus szuperszámítógépének életre hívásában két vállalat játszott kulcsszerepet: Az Nvidia és a Supermicro.
Megjegyzés: Musk néhány bejegyzése arra utal, hogy a Dell is érintett volt, de nem tudtam elég információt gyűjteni ahhoz, hogy írjak a szerepéről.
Az Nvidia biztosította a kezdeti 100.000 H100 GPU-t. Mindegyik GPU ~4 petaflops (FP8) és 141 GB HBM3 memóriát biztosít. 2024 végére a Colossus megduplázódott, és 200 000 GPU-ra nőtt, amely már több ezer H200-at is tartalmaz (a gyorsabb HBM3e-vel frissített H100-asok). A HBM3e (High Bandwidth Memory 3 Extended) több mint 1,2 TB/s sávszélességet kínál. Összehasonlításképpen, egy GeForce RTX 3060, egy fogyasztói szintű GPU, amely valószínűleg a számítógépében van, csak körülbelül 360 GB/s sebességre képes.
Ezeknek a GPU-knak természetesen kommunikálniuk kell egymással. A Colossus ehhez az Nvidia Spectrum-X Ethernet platformját használja. Így minden GPU egy 400 gigabites Ethernet BlueField-3 SuperNIC-en keresztül csatlakozik a klaszter hálózatához. A SuperNIC-ek olyan hálózati gyorsítók, amelyeket az AI-felhő adatközpontok teljesítményének növelésére terveztek.
Ezek a GPU-k azonban nem rendelkeznek beépített 400 GbE portokkal. Mint minden más GPU, PCIe-n keresztül csatlakoznak a szerver alaplapjához. A SuperNIC-ek a szerverre, a folyadékhűtéses 4U szerverre vannak telepítve. A szerverek pontos márkái és modelljei nem nyilvánosak, de valószínűleg a Supermicro SYS-421GE-TNHR2 és a Dell PowerEdge XE9680 szerverek (vagy ezek egyedi változatai) keveréke.
Egyébként ezek a 4U magas szerverek óriásiak. Mindegyikben 8 GPU található, és egyenként körülbelül 45 kg-ot nyomnak. A Colossusban ~25.000 darab van belőlük.
Végül pedig a 4U szerverek Nvidia Spectrum-4 SN5600 switcheken keresztül csatlakoznak a hálózathoz. Ezek a switchek körülbelül 51 terabit/másodperc kapcsolási kapacitással rendelkeznek. Minden nyolc 4U-s kiszolgálóból álló rackben 8-16 SuperNIC csatlakozik optikai szálas kábelen keresztül az SN5600 switchekhez.
Ezek a szuperszámítógépes SN5600 switchek lehetővé teszik, hogy a Colossus másodpercenként hatalmas mennyiségű adatot – akár több terabájtot – továbbítson a komponensei között. Ez olyan gyors, hogy egy óriási AI modell, amelynek adatai egy teljes merevlemeznyi helyet foglalnak (kb. 4 terabájt), kevesebb mint egy másodperc alatt teljesen frissíthető.
Ez a cikk nem lenne teljes a Tesla említése nélkül. A Tesla MegaPackek nagyméretű akkumulátortárolók, amelyek egyenként 3,9 megawattóra kapacitásúak és 1 megawatt teljesítményűek. A Colossusban ezek kezelik a 200.000 GPU energiaigényét.
A munkájuk nem triviális. A GPU-k hatalmas teljesítményingadozásokat okoznak a mesterséges intelligencia képzési munkaterhelésének start-stop jellege miatt, mint például a Grok 3 esetében, ahol a tüskék ezredmásodpercek alatt elérhetik a 140 megawattot. Az alapötlet az, hogy az alacsony igénybevételű időszakokban energiát tárolnak, és a csúcsok idején azonnal leadják azt.
A megapakkokat elsősorban két forrás tölti: a helyszínen telepített 15 gázturbina és a Tennessee Valley Authority hálózati energiája (~50%-ban fosszilis alapú). Tehát a megapakok nem igazán „zöldek”, de praktikusak…