Mi az a Deep Learning munkaállomás?
A mélytanulási (DL) munkaállomás egy dedikált számítógép vagy szerver, amely támogatja a számításigényes AI és mélytanulási munkaterhelést. A hagyományos munkaállomásokhoz képest jelentősen nagyobb teljesítményt nyújt, egy-, vagy több grafikus feldolgozóegység (GPU) kihasználásával.
A néhány évvel ezelőtti állapothoz képest az adattudomány és az AI iránti kereslet az egekbe szökött, ami olyan termékek fejlesztését ösztönzi, amelyek hatalmas mennyiségű adatot és összetett mélytanulási munkafolyamatokat képesek kezelni. Számos adattudományi projektben biztonsági aggályok merülnek fel, ami megnehezíti az adatok felhőbe történő áthelyezését. Ez egyre nagyobb piacot teremtett a speciális helyi munkaállomások számára, amelyek a helyi adatközpont keretein belül képesek kezelni a számításigényes AI-munkaterhelést.
Ez a cikk a deep learning GPU-k-ról szóló cikksorozatunk része.
Ebben a cikkben:
- Deep Learning Workstation: Felhőben vagy helyben?
- Top 5 Deep Learning munkaállomás opció: on-premises, vagyis helyben
- NVIDIA DGX Station
- Lambda Labs GPU munkaállomás
- Lenovo P sorozatú munkaállomások
- Szerver.Hu CtrlAI XTa és XTi munkaállomások a nagyobb (pl. Llama 3.1 - 70B) modellek futtaásához
- Data Science Workstations by 3XS
- Top 3 Deep Learning munkaállomás opció a felhőben
- AWS GPU Instances
- Azure GPU VMs
- Google Cloud GPU és TPU
- GPU-munkaterhelések skálázása a Run:AI segítségével
Deep Learning Workstation: Felhőben vagy helyben?
A mélytanulási munkaterhelések futtatására négy lehetőség van:
- Tradicionális felhőszolgáltatók - ezek közé tartoznak az olyan nagy szolgáltatók, mint az Amazon Web Services (AWS), a Microsoft Azure és a Google Cloud.
- Mélytanulás-specifikus felhőszolgáltatók - ezek olyan felhőszolgáltatások, amelyeket kifejezetten a mélytanulási munkafolyamatok támogatására szabtak, például a szoftveres képességekre és a GPU-példányokra összpontosítanak. Ilyen például a Run:ai és a Paperspace.
- Előre konfigurált, helyben (On-premises) telepített Deep Learning szerverek és mélytanulási munkaállomások állnak rendelkezésre olyan vállalatoktól, mint pl. az NVIDIA (pl. DGX rendszerek).
- saját DL munkaállomások - ezeket a szervezet vagy magának építi, vagy előre konfigurált workstation-t vásárol.
Top 5 Deep Learning munkaállomás opció: on-premises / helyben
Az on-prem deep learning munkaállomásokat vagy szervereket általában akkor vásárolják vagy építik a cégek, amikor nagy mennyiségű adatot kell elemezniük, és magas számítási kapacitásra van szükségük. Az ilyen infrastruktúra hasznos lehet, ha a vállalatnak folyamatosan kell futtatnia mélytanulási modelleket, vagy ha az adatvédelmi előírások megkövetelik az adatok helyszíni kezelését. Ezenkívül, amikor a felhőalapú megoldások nem megfelelőek a költségek vagy az adatmennyiség miatt, a cégek gyakran döntenek saját hardveres megoldás mellett a teljesítmény optimalizálása érdekében. Már egyáltalán nem nehéz egy LLM futtatása a lokális gépen, tekintse át a könnyen letölthető és installálható AI-modelleket itt: Ollama az AI-modellekhez. A jelenleg elérhető modellek:
Model | Paraméterek | Méret | Letöltéshez parancs |
---|---|---|---|
Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
Llama 3.1 | 70B | 40GB | ollama run llama3.1:70b |
Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
Phi 3 Medium | 14B | 7.9GB | ollama run phi3:medium |
Gemma 2 | 2B | 1.6GB | ollama run gemma2:2b |
Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
Mistral | 7B | 4.1GB | ollama run mistral |
Moondream 2 | 1.4B | 829MB | ollama run moondream |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
LLaVA | 7B | 4.5GB | ollama run llava |
Solar | 10.7B | 6.1GB | ollama run solar |
Itt van néhány példa az elérhető mélytanulási munkaállomások közül.
NVIDIA DGX Station
Ez az első, kifejezetten mesterséges intelligenciára tervezett munkaállomás, amely az NVIDIA NVLink technológiáján alapul, nyolc Tesla V100 GPU-val. Ez 1 petaFLOPS teljesítményre képes, ami több százszorosa egy hagyományos szerver teljesítményének. A munkaállomás kompakt (elfér egy íróasztal alatt) és csendes, mivel vízalapú hűtést használ.
Mint minden NVIDIA DGX megoldás, a DGX Station is az NVIDIA GPU Cloud Deep Learning Software Stack szoftvercsomaggal működik. Ez lehetővé teszi a gyors iterációt a DL-modellek hangolásakor. A modellt egyszerűen telepítheti egy adatközpontban lévő DGX-re, hogy lehetővé tegye a nagyszabású képzést.
A NVIDIA DGX Station alkalmas olyan szervezetek számára, amelyek integrált szoftver- és hardvermegoldást keresnek. Az NVIDIA támogatást nyújt és segít a teljes stack optimalizálásában a nagy teljesítmény érdekében.
Lambda Labs GPU munkaállomás
Ez egy középkategóriás munkaállomás kettőtől négy GPU-ig. Alkalmas kisebb csapatok és egyéni mérnökök számára, akik gépi tanulási modelleket szeretnének helyben betanítani.
A Lambda Labs GPU munkaállomás akár 4 adatközponti grande NVIDIA GPU-t (beleértve az RTX A4000, A4500, A5000 és A6000 GPU-kat, illetve ezek még erősebb ADA Generation kiadását), AMD Threadripper vagy Intel Core i9 CPU-t, akár 1 TB memóriát és akár 61 TB külső tárolót biztosít.
Lenovo P sorozatú munkaállomások
Ez egy olyan munkaállomás-sorozat, amely magas szintű mélytanulási munkafolyamatokat képes megvalósítani. A Lenovo AI munkaállomásai lehetővé teszik a mélytanulási munkafolyamatok felgyorsítását, beleértve az adatok előkészítését, a modellek képzését és az eredmények vizualizálását. A fejlett NVIDIA GPU-k segítségével teljes analitikai és adattudományi munkafolyamatokat hajthat végre. A sorozat három opciója a következő:
- ThinkStation P360 - az élalapú AI következtetések levonására szánt. i7-12700 processzorral, 32 GB rendszermemóriával, NVIDIA Quadro P2200 GPU 5 GB RAM-mal és 1 TB SSD tárolóval rendelkezik. Alkalmas lehet pl. a Llama 3.1 - 8B, vagyis a legkisebb Llama modell futtatására
- ThinkStation P520 - élvonalbeli számításokhoz és AI-modellek fejlesztéséhez. Xeon W-2295 processzorral, legfeljebb 256 GB rendszermemóriával, választható GPU-kkal, akár NVIDIA Quadro RTX 8000-ig 48 GB RAM-mal, legfeljebb 6 TB tárolóval. Ez már biztosan megbírkózna a közepes méretű Llama 3.1 - 70B futtatásával.
- ThinkStation P920 - csúcskategóriás mélytanulási asztali számítógép a modellek képzéséhez. Dupla Intel Platinum processzorral, legfeljebb 28 maggal, legfeljebb 1 TB rendszermemóriával, NVIDIA Quadro RTX 8000-ig terjedő GPU-k közül választhat 48 GB RAM-mal, legfeljebb 4TB NVMe SSD tárolóval, és további meghajtókkal akár 36 TB-ig bővíthető. Legalább ilyen teljesítményű munkaállomás szükséges a legnagyobb Llama 3.1 - 405B modell futtatásához - bár a GPU teljesítmény még így is az Nvidia által javasolt alatti.
Szerver.Hu CtrlAI XTa és XTi munkaállomások a nagyobb (pl. Llama 3.1 - 70B) modellek futtatásához
Ez a munkaállomáscsalád nem csak a lokálisan futtatott generatív AI feladatok elvégzésére alkalmas, hanem kiválóan támogatja a 3D-s kép- és animációs renderelést is. Ideális megoldás 3D modellezéshez, videókódoláshoz, illetve adatvizualizációhoz olyan eszközökkel, mint a Kibana vagy az Elastic. Tökéletes választás lehet Ansys On-Premises környezethez is, ahol nagy teljesítményű hardverre van szükség. Az alap munkaállomást kétféle kiadásban kínáljuk, hogy különböző felhasználói igényeket elégíthessünk ki:
- CtrlAI XTa - AMD Ryzen™ Threadripper™ PRO 5000-, vagy 7000 WX-sorozatú, akár 96-magos CPU, akár 1 TB ECC memóriával, egy-, vagy több NVIDIA RTX 4000 GPU 20GB RAM-mal, NVMe SSD-kkel. Egy lehetséges konfiguráció: 64 CPU mag, 512GB ECC RAM, 2x 2TB NVMe SSD:
- Fractal Design Meshify 2 XL Fekete világos ablakos (Táp nélküli) E-ATX ház
- Fractal Design Celsius S36 vízhűtéses processzorhűtő
- CHIEFTEC Polaris 3.0 1250W, 13,5cm, ATX 3.0, PCIe GEN5, BOX, 80+ Gold
- ASUS PRO WS WRX80 WRX80E-SAGE SE WIFI AMD Ryzen™ ThreadripperPRO 2x10 GbE
- AMD Ryzen™ Threadripper™ PRO 5995WX CPU, 64-Cores/128-Threads, 2.70 GHz, 256 MB cache
- 8x 64GB Samsung ECC REGISTERED DDR4 2Rx4 3200MHz PC4-25600 RDIMM | M393A8G40AB2-CWE
- 2x SAMSUNG 990 PRO PCle 4.0 NVMe M.2 SSD 2 TB | MZ-V9P2T0BW
-----------------------------------
Ára: 3.755.500 Ft +ÁFA - CtrlAI XTi - A fentiek szerinti teljesítményű Workstation, de duplaprocesszoros Intel Xeon Platinum CPU-val, összesen 64 CPU mag, 512GB ECC RAM, 2x 2TB NVMe SSD:
- Supermicro SYS-730A-I, 3rd Gen Intel® Xeon® Scalable processor support Intel C621A Chipset 5 PCI-E 4.0 x16, 1 PCI-E 4.0 x8, 2 NVMe M.2 slots
- 2x Intel® Xeon® Platinum 8352Y CPU 2.20GHz 32-Cores/64-Threads 48M 205W
- 8x 64GB Samsung ECC REGISTERED DDR4 2Rx4 3200MHz PC4-25600 RDIMM | M393A8G40AB2-CWE
- 2x SAMSUNG 990 PRO PCle 4.0 NVMe M.2 SSD 2 TB | MZ-V9P2T0BW
-----------------------------------
Ára: 2.999.500 Ft +ÁFA
Adattudományi munkaállomások a 3XS-től
A 3XS Systems által gyártott adattudományi munkaállomások NVIDIA RTX GPU gyorsítókkal működnek. Az adattudósok a 3XS munkaállomásokat a korai szakaszokban használhatják, mielőtt áttérnének a vállalati szintű oktatóhardverekre.
A NVIDIA-üzemű adattudományi munkaállomások NVIDIA CUDA-X AI-ra épülő szoftvert kínálnak, amely több mint tizenöt adatfeldolgozó és gépi tanulási könyvtárat tartalmaz. Ezek lehetővé teszik, hogy a számítástechnikai alkalmazások kihasználják az NVIDIA GPU-alapú számítási platformját.
3XS munkaállomásainak három fő kiadását kínálja, amelyek mindegyike más-más GPU-ra épül: Quadro RTX 8000 48 GB RAM-mal, Quadro RTX 6000 24 GB RAM-mal és Quadro GV100 32 GB RAM-mal és dupla pontosságú támogatással.
Top 3 Deep Learning munkaállomás lehetőség a felhőben
AWS GPU-instances
AWS Deep Learning AMI (DLAMI) végponttól végpontig tartó megoldásokat kínál a felhőalapú mélytanuláshoz. A szolgáltatás személyre szabott géppéldányt kínál, amely az Amazon EC2 régióinak többségében elérhetővé válik.
AWS DLAMI tartalmazza az NVIDIA cuDNN-t, az NVIDIA CUDA-t és a népszerű mélytanulási keretrendszerek legújabb verzióit. Többféle példánytípussal használható, köztük kis, csak CPU-t használó példányokkal és nagy teljesítményű, több GPU-t tartalmazó példányokkal:
- Amazon EC2 P3 példányok - akár 8 NVIDIA Tesla V100 GPU-val.
- Amazon EC2 G3 Instances - akár 4 NVIDIA Tesla M60 GPU.
- Amazon EC2 G4 Instances - akár 4 NVIDIA T4 GPU.
- Amazon EC2 P4 Instances - akár 8 NVIDIA Tesla A100 GPU.
Azure GPU VM-ek
Az Azure GPU-ra optimalizált virtuális gépek (VM) sorozatot kínál. Az Azure GPU VM-ek többféle méretben, többek között több, egy vagy tört GPU-val is használhatók. Ezeket a méreteket kifejezetten grafikus és számításigényes munkaterhelésekhez tervezték. Íme néhány lehetőség:
NCv3-sorozat és NCasT4_v3-sorozat
Mindkét sorozatot kifejezetten számításigényes, GPU-gyorsított alkalmazásokhoz optimalizálták. Például OpenCL és CUDA alapú szimulációk, mélytanulás és mesterséges intelligencia. Íme a főbb különbségek e sorozatok között:
- Az NCasT4_v3-sorozat - következtetési munkaterhelésekre összpontosít, amelyek NVIDIA Tesla T4 GPU-t, valamint AMD EPYC 7V12(Rome) processzort tartalmaznak. Pl. Standard_NC4as_T4_v3, Standard_NC8as_T4_v3, Standard_NC16as_T4_v3, Standard_NC64as_T4_v3
- Az NCv3-sorozat - a nagy teljesítményű számítási (HPC) és AI-munkaterhelésekre összpontosít, amelyek NVIDIA Tesla V100 GPU-t tartalmaznak. Pl. Standard_NC12s_v3, Standard_NC24s_v3, Standard_NC24rs_v3
ND A100 v4-sorozat
A sorozat a mélytanulási képzés skálázására, valamint a HPC-alkalmazások gyorsítására összpontosít. Nyolc A100 GPU-t biztosít, egyenként 40 GB memóriával, amelyek 200 Gigabit InfiniBand MDR-en keresztül csatlakoznak.
NV-sorozat és NVv3-sorozat
A sorozat méreteit kifejezetten a távoli vizualizáció, a játék, a streaming és a kódolás lehetővé tételére és támogatására tervezték és optimalizálták. Ideális az olyan VDI-forgatókönyvekhez is, amelyek olyan keretrendszereket használnak, mint a DirectX és az OpenGL. Az NV-sorozat és az NVv3-sorozat VM-jei az NVIDIA Tesla M60 GPU-val működnek.
Google Cloud GPU és TPU
A Google Cloud két fő mélytanulási lehetőséget kínál: GPU-kat és TPU-kat.
Google Cloud GPU
A Google Cloud Compute Engine GPU-kat kínál, amelyeket hozzáadhat VM-példányaihoz. A Google Cloud GPU-k segíthetnek felgyorsítani bizonyos, a példányokon futó munkaterheket, különösen az adatfeldolgozást és a gépi tanulást.
A Google Cloud lehetővé teszi az NVIDIA GRID technológia használatát virtuális munkaállomások létrehozásához a grafikaigényes munkaterhelésekhez, például a 3D rendereléshez és 3D vizualizációhoz, valamint a virtuális alkalmazásokhoz. Több GPU-t is használhat, köztük az NVIDIA K80, P4, P100, V100, A100 és T4 GPU-kat.
Google Cloud TPU
A GPU-k mellett a Google Cloud lehetővé teszi a tensorfeldolgozó egységek (TPU-k) használatát is. A TPU egy alkalmazásspecifikus integrált áramkör (ASIC) eszköz, amelyet kifejezetten a gépi tanulási alkalmazások számítási követelményeinek kezelésére terveztek.
A Cloud TPU-termékek skálázható felhőalapú számítási erőforrásokat kínálnak a gépi tanulással foglalkozó mérnökök, fejlesztők, kutatók és adattudósok számára, akik úgy döntenek, hogy gépi tanulási modelljeiket a Google Cloudon futtatják. A Cloud TPU több mint 100 petaflops teljesítményt biztosít, így például egy 8 maggal rendelkező TPU v2 csomópontról egy 2048 maggal rendelkező teljes TPU v3 csomópontra skálázható.
GPU-munkaterhelések skálázása a Run:AI segítségével
A Run:AI automatizálja a gépi tanulási infrastruktúra erőforrás-kezelését és összehangolását, beleértve a GPU-munkaállomásokat és a felhő GPU-instanciákat is. A Run:AI segítségével automatikusan annyi számításigényes kísérletet futtathat, amennyire szükség van.
Az AI/ML munkaterhelést futtató GPU-alapú számítógépekhez készült AI Orchestration Platformuk biztosítja:
- Felfejlett sorbaállítás és igazságos ütemezés, hogy a felhasználók könnyen és automatikusan megoszthassák a GPU-kból álló fürtöket,
- elosztott képzés több GPU-csomóponton a modellképzési idők felgyorsítása érdekében,
- frakciós GPU-k több munkaterhelés zökkenőmentes futtatásához egyetlen, bármilyen típusú GPU-n,
- a felhasználói termelékenység javítása érdekében a munkaterhelések és az erőforrás-kihasználás átláthatósága.
A Run:AI leegyszerűsíti a gépi tanulás infrastrukturális csővezetékeit, segítve az adattudósokat termelékenységük és modelljeik minőségének felgyorsításában.
Tudjon meg többet a Run:AI GPU virtualizációs platformról.