RAM a VRAM: Ako sa vzťahujú na serveri s umelou inteligenciou

Prvá otázka, ktorú si kupujúci kladú ohľadom servera s umelou inteligenciou, je „koľko grafických kariet má“. Druhá je „aký procesor“. Otázka, ktorá v skutočnosti rozhoduje o tom, či zariadenie funguje dobre – a ktorú väčšina technických listov zamlčuje – je to, aká je veľkosť dvoch pamäťových systémov vo vzťahu k sebe navzájom. Stroj so 4 grafickými kartami, 192 GB VRAM a 32 GB systémovej pamäte RAM je pokazený. Ten istý stroj s 1 TB systémovej pamäte RAM je pre väčšinu pracovných záťaží ako spálené peniaze. Správna odpoveď sa nachádza niekde medzi tým a závisí od toho, čo v skutočnosti používate.

Tento článok sa venuje tomu, čo robí VRAM a systémová RAM, ako spolu súvisia, kde sa nachádzajú úzke miesta v šírke pásma a aké pomery sa v praxi prejavujú. Je určený pre kupujúcich a integrátorov, ktorí určujú veľkosť zostavy, nie pre inžinierov píšucich jadrá CUDA.

Čo VRAM skutočne obsahuje

Keď je model „načítaný na GPU“, vo VRAM sa nachádzajú tri veci:

  1. Váhy modelu. Model 70B pri FP16 má 140 GB; pri INT8 70 GB; pri INT4 (bežná kvantizácia s vlastným hostiteľom) 35 – 40 GB v závislosti od schémy kvantovania.
  2. KV vyrovnávacia pamäť. Náklady na pamäť na požiadavku. Model s kapacitou 70 bitov pri kontextovom jednom streame s rozlíšením 8 kB je to 1 – 2 GB. Pri rozlíšení 32 kB je to 4 – 8 GB. Pri dávkovom poskytovaní (10 – 20 súbežných) sa tým zaplní zostávajúca pamäť VRAM, nie váhy.
  3. Aktivácie a pracovný priestor. Medziľahlé procesy vpred, fáza pozornosti, pracovný priestor jadra. Niekoľko GB na inferenciu; podstatne viac počas trénovania, pretože aktivácie sa ukladajú pre spätný priechod.

Pre tréning pridajte stav optimalizátora (Adam si ponecháva dve hodnoty FP32 na hmotnosť – približne 8-násobok veľkosti hmotnosti FP16) a prechody (1× veľkosť hmotnosti). Preto trénovanie 70B modelu od začiatku vyžaduje 8× uzlov H100 alebo A100 s kapacitou 80 GB a nie je to niečo, čo robí Kentino box. Jemné ladenie s LoRA alebo QLoRA je iný príbeh a pohodlne funguje na zostave Blackwell so 4 GPU 5090 alebo Pro 6000.

Praktické dôsledky: veľkosť modelu vo VRAM nie je „parametre × bajty na parameter“. Pre nasadenie 70B modelu na INT4 v kontexte 8K naplánujte 40 GB váhy + 20–40 GB KV vyrovnávacej pamäte pri realistickej dávke + 4 GB réžia = ~70 GB. To sa zmestí na jednu RTX Pro 6000 Blackwell Server Edition (96 GB) alebo potrebuje 3–4 RTX 5090 pre akúkoľvek rozumnú dávku. „Celkový počet VRAM“ je menej dôležitý ako „VRAM na kartu a spôsob ich pripojenia“.

Šírka pásma VRAM: číslo, ktoré určuje rýchlosť generovania tokenov

Generovanie tokenov na transformátorovom LLM je viazané na šírku pásma, nie na výpočtový výkon. Každý vygenerovaný token načíta celý model z VRAM cez pamäťovú zbernicu. Číslo TFLOPS uvedené v technických údajoch je pre inferenciu do značnej miery irelevantné; dôležitá je šírka pásma pamäte v GB/s.

GPU VRAM typ pamäte Bandwidth zdroj
RTX 4090 24 GB GDDR6X 1.01 TB / s Špecifikácia NVIDIA
RTX 5090 32 GB GDDR7 1.79 TB / s Špecifikácia NVIDIA
RTX Pro 6000 Blackwell (pracovná stanica) 96 GB GDDR7 ECC 1.79 TB / s Špecifikácia NVIDIA
RTX Pro 6000 Blackwell Server Ed. 96 GB GDDR7 ECC 1.79 TB / s Špecifikácia NVIDIA
L40 48 GB GDDR6 ECC 0.86 TB / s Špecifikácia NVIDIA
L4 24 GB GDDR6 0.30 TB / s Špecifikácia NVIDIA
H100 SXM (referenčný, nepredáva sa) 80 GB HBM3 3.35 TB / s Špecifikácia NVIDIA
H200 SXM (referenčný, nepredáva sa) 141 GB HBM3e 4.8 TB / s Špecifikácia NVIDIA

Kentino nepredáva H100 ani H200; sú uvedené pre poctivé porovnanie. Stále sú kráľmi šírky pásma a dôvodom, prečo ich kupujú hyperškálovatelia. Cenový rozdiel je 6–10×, rozdiel v šírke pásma pri inferencii jedného streamu je 2×. Pre nehyperškálovateľné pracovné zaťaženia táto matematika nehovorí v prospech HBM.

Hrubé pravidlo pre generovanie tokenov INT4 s jedným prúdom: tok/s ≈ šírka pásma (GB/s) / veľkosť modelu (GB), vynásobený faktorom účinnosti zásobníka 0.6–0.8. Model 70B pri INT4 (~40 GB) na jednom 5090:

1790 GB/s × 0.7 / 40 GB ≈ 31 tok/s (single stream, no batching)

Toto zodpovedá tomu, čo meriame v laboratóriu. Dávkovanie zvyšuje celkovú priepustnosť na 50 – 100 tok/s, ale rýchlosť na stream zostáva blízko stropu šírky pásma. Žiadne množstvo systémovej pamäte RAM toto číslo nezmení.

ECC VRAM: reálna pre tréning, menej kritická pre inferenciu

Rad grafických kariet RTX Pro 6000 Blackwell obsahuje pamäť VRAM s korekciou chýb (ECC). Spotrebiteľské karty (5090, 4090) ju nemajú. Marketing to robí kritickým, realita je však trochu komplikovanejšia.

Pamäť ECC VRAM detekuje a opravuje jednobitové chyby v pamäti počas behu. Bez nej by sa chyba šírila – zvyčajne neviditeľne počas inferencie (jeden token mierne odlišný od toho, aký by bol), občas katastroficky počas trénovania (šírenie NaN, divergencia, mŕtvy chod).

Keď je ECC dôležité:

  • Dlhotrvajúci tréning. Pamäťová prevádzka počas viacdňových úloh robí tiché prepnutie bitu reálnou pravdepodobnosťou. Strata 48-hodinového behu kvôli nezistenej chybe je oveľa horšia ako kvôli opravenej chybe.
  • Numerické pracovné zaťaženia bez ľudskej účasti. Simulácia, modelovanie, čokoľvek spotrebované v nadväznosti na proces bez kontroly správnosti.
  • Regulované pracovné zaťaženie. Ak váš režim dodržiavania predpisov vyžaduje bitovo presnú reprodukovateľnosť, ECC je povinné.

Keď je ECC prevažne kozmetický:

  • Poskytovanie inferencie LLM. Rýchlosť prepínania bitov na modernej GDDR7 pamäti je dostatočne nízka, takže vplyv na kvalitu výstupu je nižší ako šum. Spotrebiteľské karty 5090 sme mesiace používali v náročných inferenciách bez toho, aby sme zaznamenali anomálie, ktoré by sa dali pripísať chybám VRAM.
  • Generovanie obrázkov a videa. Percepčná šumová podlaha pohltí jednobitovú chybu.
  • Vývoj a experimentovanie. Reštart a opätovné spustenie je lacné.

Úprimná verzia: ak je pracovnou záťažou primárne inferencia, prémiová karta Pro 6000 platí za 96 GB VRAM a overené ovládače, nie za ECC. Ak je pracovnou záťažou trénovanie, ECC si svoje zaslúži. Predávame oboje a to isté vám povieme aj telefonicky.

Systémová RAM: koľko a pravda o odľahčení CPU

Systémová pamäť RAM vykonáva v serveri s umelou inteligenciou štyri veci:

  1. Fázy modelu načítavajú z disku do VRAM. Súbor modelu 70B presúva NVMe → vyrovnávaciu pamäť stránok → systémovú RAM → VRAM. Ak je systémová RAM menšia ako súbor, načítanie buď zlyhá, alebo sa zasekne.
  2. Podporuje OS, inferenčný server (vLLM, llama.cpp, Triton) a pomocné služby (vektorová databáza, monitorovanie, front požiadaviek).
  3. Uchováva stav tokenizátora, fronty požiadaviek a vyrovnávacie pamäte pred a po spracovaní.
  4. Voliteľne hostuje vrstvy odľahčené z CPU. Toto ľudia preceňujú.

Odľahčenie CPU v llama.cpp a podobných runtime prostrediach umožňuje spúšťať model väčší ako VRAM tým, že niektoré vrstvy ponecháva na CPU a streamuje ich cez GPU pre každý token. Funguje to. V takmer každom reálnom prípade je to zároveň aj cvičenie v utrpení.

Čísla: 5090 má šírku pásma VRAM 1.79 TB/s. 12-kanálová platforma EPYC Genoa s DDR5-4800 poskytuje celkovo ~460 GB/s. Odľahčenie CPU je 4–6× pomalšie na token ako plná rezidencia VRAM, optimisticky — to predpokladá dokonalú lokalitu NUMA a CPU, ktoré nie je zároveň zaneprázdnené obsluhou réžie.

Referenčné hodnoty z krabice 4×5090 s --n-gpu-layers naladené:

  • Plne na GPU (70B INT4 naprieč 4×24 GB): 28–32 tok/s jeden stream.
  • 80 % na GPU, 20 % na CPU: 6–9 taktov/s.
  • 50/50: 2–4 tok/s.

Toto nie je názor Kentina. Ide o to, ako sa šírka pásma DDR5 vzťahuje k šírke pásma GDDR7. Riešením problému „model sa nezmestí do VRAM“ je viac alebo lepšie GPU, nie systémová RAM s odľahčením. Výnimkou je platforma s unifikovanou pamäťou AMD Ryzen AI Max 300, iná beštia a mimo rozsahu tejto záberu.

Kúpte si dostatok systémovej pamäte RAM na načítanie a poskytovanie, nie na výpočty.

Koľko systémovej pamäte RAM konkrétne

Pracovné pravidlo pre zostavy K-AI:

System RAM ≈ 1.5 × total VRAM, rounded to the next standard config.

Pre zostavu so 4 GPU:

vybudovať Celková VRAM Odporúčaná systémová RAM
4× RTX 4090 (spolu 96 GB) 96 GB 128 GB
4× RTX 5090 (spolu 128 GB) 128 GB 192 GB
4× RTX Pro 6000 BW (spolu 384 GB) 384 GB 512 GB
4× L40 (spolu 192 GB) 192 GB 256 GB

Pri zostavách s 8 grafickými procesormi nie je škálovanie pamäte RAM striktne lineárne – pokiaľ je to možné, držte sa v rámci kanálov jedného socketu. Predvolene nastavujeme 256 GB na 8× 5090 a 512 GB na 8× Pro 6000 Blackwell.

Pravidlo má na okrajoch dva režimy zlyhania:

  • Nedostatočná špecifikácia: 64 GB na 8-GPU serveri. Model sa načítava pomaly, vyrovnávacia pamäť stránok nedokáže uchovať váhy pre rýchle opätovné načítanie a súbežné poskytovanie a pomocné služby (pgvector, monitorovanie) sa začnú vymieňať.
  • Nadmerne špecifikované: 2 TB na inferenčnom boxe so 4 GPU. Funguje to dobre, ale minuli ste 4 000 – 8 000 EUR na RAM, ktorá stránkuje. Výnimkou je hosťovanie mnohých modelov a ich striedanie VRAM↔RAM – vtedy veľká systémová RAM funguje ako horúca vyrovnávacia pamäť. Zriedkavé mimo výskumných laboratórií.

Existuje aj prípad „64 GB stačí“: stroj s 2 GPU, jeden model naraz, žiadna súbežnosť, žiadne pomocné služby. Nie je to seriózny server, ale seriózna vývojárska pracovná stanica.

Kanály EPYC: odkiaľ vlastne pochádza šírka pásma

Šírka pásma systémovej pamäte RAM na AMD EPYC (základ takmer všetkých našich 8-GPU serverov) sa škáluje s počtom obsadených pamäťových kanálov, nie s hlavnou rýchlosťou modulov DIMM. Kanály sú na socket, obsadený jeden modul DIMM na kanál.

Plošina Kanály na zásuvku Rýchlosť DIMM (typická) Šírka pásma na soket
EPYC 9004 (Janov) 12 DDR5-4800 ~ 460 GB / s
EPYC 9005 (Turín) 12 DDR5-6000 ~ 576 GB / s
EPYC 9005 Turín Hustý 12 DDR5-6400 ~ 614 GB / s
Xeon SP 5. generácie 8 DDR5-5600 ~ 358 GB / s

Dve veci z tejto tabuľky:

  1. Naplňte všetkých dvanásť kanálov na platforme EPYC Genoa/Turín, aby sa dosiahla inzerovaná šírka pásma. Osem modulov DIMM v dvanásťkanálovom systéme poskytuje osem kanálov šírky pásma, nie dvanásť. V praxi to vidíme neustále s nesprávnou konfiguráciou.
  2. Počet modulov DIMM určuje minimálnu rozumnú veľkosť pamäte RAM. 12 × 16 GB = 192 GB. 12 × 32 GB = 384 GB. Konfigurácie „šetriace peniaze“, ktoré využívajú menej modulov DIMM (šesť 32 GB modulov DIMM pre 192 GB), nechávajú polovicu šírky pásma neobsadenú. Nerobte to.

Dvojitý soket poskytuje celkovo 24 kanálov; šírka pásma sa celkovo zdvojnásobí, ale iba ak pracovná záťaž rešpektuje štandard NUMA.

NUMA: náklady na prekročenie hranice

Dvojsocketový server EPYC má dva čipy CPU, každý s vlastnými radičmi pamäte, slotmi DIMM a koreňovým komplexom PCIe. Prechod z pamäte jedného socketu do grafického procesora druhého socketu prechádza cez Infinity Fabric – rýchlo, ale nie tak rýchlo ako pri lokálnom prechode.

Hrubé, ale užitočné čísla:

Cesta Bandwidth Penalizácia za latenciu verzus lokálna
Pätica CPU 0 → lokálny DIMM ~ 576 GB / s 1× (základná hodnota)
Pätica CPU 0 → vzdialený DIMM (cez fabric) ~256–320 GB/s 1.6–2× latencia
GPU na sockete 0 → lokálny DIMM (cez PCIe + DMA) ~28 GB/s (PCIe 5.0 x16) 1 ×
GPU na sockete 0 → DIMM na sockete 1 ~14–20 GB/s 1.5–2× latencia

Pre záver možno povedať, že penalizácia NUMA je zvyčajne neviditeľná – akonáhle je model vo VRAM, prevádzka systémovej RAM je len mierna. NUMA je dôležitá, keď:

  • Načítava sa model. Načítanie 100 GB z nesprávneho uzla trvá citeľne dlhšie. Prepojenie s numactl alebo nastavte afinitu v prostredí runtime vášho kontajnera.
  • Predspracovanie na strane CPU (tokenizácia vo veľkom meradle, dekódovanie obrazu, prevzorkovanie zvuku). Zaneprázdnený tokenizátor na sockete 0 s grafickými procesormi zavesenými na sockete 1 stráca 20 – 40 % priepustnosti.
  • Tréning so stavom optimalizátora s odľahčeným CPU (DeepSpeed ​​Zero-Offload). NUMA-cudzí stav zdvojnásobuje čas kroku. Všetko pripnúť.

Praktická odpoveď: predvolené nastavenie pre jeden soket pre inferenčné servery pokiaľ nemáte konkrétny dôvod na duálny procesor. V našej ponuke existuje dvojsocketový procesor (K-AI 256 Turin Dual), pretože niektoré pracovné zaťaženia – súbežné trénovanie plus inferencia, veľké vektorové úložiská v pamäti, osem GPU vyžadujúcich dva koreňové komplexy – ho skutočne potrebujú. Väčšina nie. Jednosocketový Turin s 12 kanálmi a 384 – 512 GB zvláda väčšinu prípadov použitia inferencie.

DDR5 RDIMM vs. LRDIMM a ECC

Serverová RAM v roku 2026 bude jednotne DDR5 ECC. Výber je RDIMM vs. LRDIMM:

  • RDIMM (registrovaná): štandardná serverová pamäť, vyrovnávacia pamäť príkazov, vrátane ECC. Možnosť čistenia modulov až do 64 GB, na niektorých platformách až do 128 GB.
  • LRDIMM (so zníženým zaťažením): pridáva vyrovnávaciu pamäť, ktorá znižuje zaťaženie zbernice, čo umožňuje vyššiu kapacitu na kanál. Vyžaduje sa pre moduly s kapacitou 128 GB a viac. Mierne vyššia latencia, pri reálnych pracovných zaťaženiach hraničná.

Predvolená hodnota Kentina: 32 GB alebo 64 GB RDIMM s kapacitou DDR5-4800 (Janov) alebo DDR5-6000 (Turín). LRDIMM iba v prípade, že zostavenie vyžaduje 1 TB+, zriedkavé externé školenie alebo viacmodelový hosting. ECC je neobchodovateľné – serverové DIMM bez ECC neexistujú v platformách, ktoré dodávame.

Čo sa pokazí, keď je pamäť nesprávna

Predvídateľné poruchové režimy, zhruba v poradí podľa frekvencie:

  • Pomalé načítanie modelu na nedostatočne špecifikovanej RAM. Model 70B má na disku ~40 GB. Pri 32 GB systémovej RAM načítavanie zahlcuje vyrovnávaciu pamäť stránok a 40-sekundový studený štart sa zmení na 4 minúty. Oprava: 1.5 × minimálna celková VRAM.
  • Penalizácia polovičnej šírky pásma z dôvodu nedostatočne osadených kanálov DIMM. Šesť modulov DIMM v dvanásťkanálovom EPYC. Predspracovanie viazané na CPU sa ticho rozdelí na polovičné časti. Oprava: naplnenie všetkých kanálov.
  • NUMA-zahraničný prístup na duálnom sokete s nezodpovedajúcou afinitou. Fix: numactl --cpunodebind=0 --membind=0alebo režim NUMA-aware daného frameworku.
  • OOM pri vysokej dávke na podhodnotenej vyrovnávacej pamäti KV. vLLM --gpu-memory-utilization 0.9 Zostáva 10 % rezervy, ale 64 súbežných operácií pri 32 kB kontexte stále prepĺňa 24 GB kartu. Oprava: kratší kontext, menšia dávka alebo viac VRAM.
  • Odľahčenie CPU „uloží“ zostavenie a zničí priepustnosť. „Server je pomalý“ – ukázalo sa, že 30 % vrstiev je zaťažených procesorom, pretože VRAM bola obmedzená. Chyba pri dimenzovaní, nie pri ladení. Kúpte si správny počet grafických kariet hneď na začiatok.

Žiadna z nich nie je exotická. Všetky sa objavia v prvom mesiaci po novej inštalácii.

Kedy venovať pozornosť

Pre nasadenia iba založené na inferencii:

  1. Ktoré modely potrebujete hostiť súbežne? Sčítajte ich INT4 stopy. Pridajte 40 – 60 % pre KV vyrovnávaciu pamäť v cieľovej dávke a kontexte. To je vaša minimálna VRAM.
  2. Aká je vaša cieľová latencia na token? Najväčšia zastavaná plocha modelu vydelená šírkou pásma na kartu vám ukáže, či potrebujete jednu rýchlu kartu, štyri stredné karty alebo osem menších kariet.
  3. Minimálna systémová RAM: 1.5 × celková VRAM, osadená vo všetkých pamäťových kanáloch. Zaokrúhlite nahor na ďalšiu štandardnú konfiguráciu.
  4. Jednoduchá alebo dvojitá zásuvka? Predvolená jednoduchá grafická karta. Duálnu grafickú kartu použite iba vtedy, keď potrebujete osem grafických procesorov na dvoch koreňových komplexoch PCIe alebo kombinujete rozsiahle trénovanie s inferenciou.
  5. ECC? Áno, ak je školenie skutočnou súčasťou pracovnej záťaže alebo si to vyžaduje dodržiavanie predpisov. Ak je rozpočet obmedzený, vynechajte čistú inferenciu.

Pre zostavy vhodné na trénovanie sa pravidlo RAM mení na 2–3× celková VRAM – DeepSpeed, Megatron a podobné frameworky sa počas vykonávania krokov spoliehajú na systémovú RAM. Disciplína NUMA sa stáva nevoliteľnou.

Následné články pokrývajú zvyšok zásobníka: topológia PCIe a priradenie línií (W02), rozširujúce grafické karty (GPU) a ich poruchové režimy (W03), dimenzovanie zdroja a realita duálneho zdroja (W04) a návrh tepelného plášťa (W05Pamäť je prvá páka, ktorú treba napraviť, pretože sa nachádza medzi všetkými ostatnými komponentmi – nesprávna pamäť spôsobuje, že všetko ostatné vyzerá pokazené.


Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.