Jednouzlový multi-GPU verzus viacuzlový: Kedy je potrebné škálovať
Najdrahšou chybou vo fáze nákupu je rozdelenie rozpočtu na GPU medzi dva uzly, keď by úlohu zvládol jeden väčší uzol. Druhou najdrahšou je zostať na jednom uzle, keď pracovná záťaž skutočne potrebuje sieťovú infraštruktúru, a potom stráviť šesť mesiacov predstieraním, že systém to s ním zvláda.
Tento článok predstavuje logiku rozhodovania pre toto rozdelenie: kedy je jeden 8-GPU box správnou odpoveďou, kedy nie a ako zistiť, na ktorej strane čiary sa nachádza vaša pracovná záťaž. Sprievodné články pokrývajú mechaniku (K02 školenia, K03 záver, K07 Limity PCIe, K06 spracovanie porúch); toto je rozhodnutie kupujúceho.
Strop 8 GPU podľa modelu
Prvou otázkou je, či sa model zmestí do jedného uzla. S 8× RTX Pro 6000 Blackwell (96 GB každá) získate 768 GB použiteľnej VRAM; s 8× RTX 5090 (32 GB každá) získate 256 GB. Ani jedna z nich nie je podľa štandardov roku 2026 malá, ani jedna nepojme všetko.
| Modelka | Váhy (FP8) | Váhy (INT4) | 8× 5090 (256 GB)? | 8× Pro 6000 (768 GB)? |
|---|---|---|---|---|
| Lama 3.1 / 3.3 70B | ~75 GB | ~40 GB | Áno, pohodlne | Áno, s KV svetlou výškou |
| Qwen 2.5 72B (vrátane VL) | ~80 GB | ~44 GB | Áno | Áno |
| Mixtral 8x22B (spolu 141B) | ~140 GB | ~75 GB | Iba INT4, tesné | Áno |
| Lama 3.1 405B | ~400 GB | ~210 GB | Nie | INT4 áno, 8. RP marginálne |
| DeepSeek-V3 (671B MoE, 37B act) | ~670 GB | ~340 GB | Nie | INT4 áno, 8. RP marginálne |
| Hypotetická hustota 600B+ | 600+ GB | 300+ GB | Nie | Marginálne alebo žiadne |
Útes je na hranici 405B / 671B. Pod ňou stačí jedna 8-GPU Pro 6000. Na a vyššie buď agresívne kvantujete (váhy INT4 – v poriadku na inferenciu, mizerné na trénovanie), alebo prekračujete hranicu uzla.
„Vhodí sa“ nie je to isté ako „beží dobre“. Model, ktorý zaberá 95 % VRAM bez priestoru pre KV vyrovnávaciu pamäť, prefixovú vyrovnávaciu pamäť, CUDA grafy alebo aktivačnú pamäť, bude predchádzať požiadavkám pri akomkoľvek skutočnom zaťažení. Funkčné pravidlo: váži 60 – 70 % VRAM a 30 – 40 % ponecháva pre všetko ostatné. S týmto obmedzením to 405B v FP8 robí. nie pohodlne sa zmestí na 8× Pro 6000 pre inferenciu pri akejkoľvek užitočnej súbežnosti – vyhovuje váham, nie pracovnému zaťaženiu.
Kedy by ste NEMALI škálovať
Prípady, kedy je jednoznačne správne zostať na jednom uzle:
- Inferencia pre akýkoľvek model, ktorý vyhovuje. Ak model plus KV zodpovedá cieľovej súbežnosti, viacuzlový TP cez Ethernet alebo IB je výrazne pomalší ako jednouzlový. PCIe Gen5 v rámci rozhrania poskytuje ~50 GB/s medzi GPU na tom istom prepínači; 200 Gb/s IB medzi uzlami poskytuje ~25 GB/s. Pracovná záťaž, ktorá na PCIe kríva, sa na IB plazí.
- Produkčné služby pre jedného nájomníka. Jeden model, jeden klient, mierna súbežnosť. 8-GPU Pro 6000 bez problémov zvládne 70B s 32 – 64 súbežnými požiadavkami. Druhý modul je užitočný iba ako horúca náhrada alebo zdvojnásobenie priepustnosti DP – ani jeden nie je „škálovateľný“ v zmysle tesnej väzby.
- Výskumné laboratóriá používajúce modely 7B–72B. Väčšina akademických a aplikovaných prác v roku 2026 sa nachádza tu – Llama 3.x 8B, Qwen 7B/14B/32B, Mistral, Gemma, 70B s jemným doladením chvosta. Žiadna z nich nepotrebuje viac ako jeden uzol.
- Jemné doladenie LoRA / QLoRA. Zmyslom PEFT je, že nepotrebujete trénovacie zdroje pre celý model. 70B LoRA sa zmestí na 4–8 GPU v jednom uzle; 405B QLoRA sa zmestí na 8× Pro 6000.
- Dávková inferencia a offline pracovné zaťaženia. Ak je SLA „spracovať tento korpus do piatku“, dávkové spracovanie v priepustnom režime na jednom 8-GPU systéme to zvládne. Viaceré uzly pomáhajú iba vtedy, keď nemôžete dokončiť včas – zvyčajne preto, že model je príliš veľký, nie preto, že jeden uzol je príliš pomalý.
Približne 80 % zákazníkov Kentina by si malo kúpiť jeden väčší uzol namiesto dvoch menších a väčšina zo zvyšných 20 % v skutočnosti chce repliky DP za vyrovnávačom záťaže, nie za klastrom.
Kedy MUSÍTE škálovať
Prípady, kedy jeden uzol skutočne nestačí, sú užšie, než si ľudia myslia.
Trénovanie modelu 70B+ od nuly. Osem GPU nestačí na inštaláciu. Predtrénovanie 70B pri zverejnených rozpočtoch na tokeny (1.5 – 15T) trvá stovky mesiacov GPU na hardvéri triedy H100, viac na spotrebiteľských GPU PCIe. Táto práca vyžaduje 32 – 128+ GPU a SXM fabric. Kentino túto úroveň nevytvára.
Úplné doladenie úrovne 70B+. Nie LoRA – úplné jemné doladenie s rezidentnými stavmi optimalizátora, gradientmi a aktiváciami. Úplné jemné doladenie 70B (váhy FP16 + FP32 Adam + grad + aktivácia) predstavuje 1.2–1.5 TB stavu, čo je viac ako jeden 8-GPU uzol aj s FSDP. Odôvodňuje 2–4-uzlový IB klaster.
Hosting 405B+ s produkčnou latenciou. Váhy zodpovedajú INT4 na 8× Pro 6000, ale KV cache plus súbežné poskytovanie s použiteľnou latenciou vás tlačia na dva alebo viac uzlov. Dva 8-GPU Pro 6000 boxy v TP=8 × PP=2 alebo TP=4 × PP=4 sú realistické minimum pre Llama 3.1 405B pri slušnom QPS. K03 rozbaľuje toto.
Produkcia pre viacerých nájomcov s agregovanou kapacitou >100 000 QPS. Jeden uzol s 8 GPU obsluhuje súhrnne 500 – 2 000 tokov/s pri 70B FP8. Po desiatkach tisíc QPS chcete viacero replík a po tomto počte chcete skutočný klaster s routerom a smerovaním s ohľadom na prefix-cache. Správna odpoveď je zvyčajne veľa DP replík, nie jeden obrovský TP klaster.
Mimo týchto štyroch argumentov argumenty rýchlo slabnú. Väčšina otázok typu „Potrebujem viacero uzlov“ sa ukáže ako „Chcem väčšiu priepustnosť“ – otázka repliky, nie otázka fabric.
Ideálne miesto pre jeden uzol
Geometria silnej jednouzlovej zostavy na hardvéri, ktorý Kentino v skutočnosti dodáva:
| Zložka | voľba | Prečo |
|---|---|---|
| GPU | 8× RTX Pro 6000 Blackwell (96 GB) | 768 GB VRAM pojme všetky realistické otvorené modely z roku 2026 |
| GPU (alternatívny) | 8× RTX 5090 (32 GB) | Lacnejšie, celkovo 256 GB, jemné až do triedy 72B |
| CPU | EPYC 9554P alebo 9654 (jedna zásuvka) | 128 liniek PCIe Gen5, žiadne úzke hrdlo xGMI |
| Interconnect | PCIe Gen5 x16 (prepínaná štruktúra) | ~50 GB/s GPU-to-GPU, žiadne NVLink na týchto SKU |
| RAM | 768 GB – 1 TB DDR5 | Štedrý pre napájačov dátových súborov a rozliatie KV |
| networking | 2× 100 GbE (voliteľne 400 GbE) | Dostatok pre inferenčný výstup a úložisko |
| Uskladnenie | 4–8 U.2 NVMe + 2 bootovacie M.2 | Lokálne NVMe pre súbory údajov a kontrolné body |
Kľúčové obmedzenie: NVLink nie je na týchto kartách. RTX 5090, RTX Pro 6000 Blackwell, L40, L4 sú pripojené cez PCIe. Moduly NVLink-fabric SXM (H100 SXM, B200 SXM, GB200) vyžadujú základné dosky HGX, ktoré nevyrábame. K07 pokrýva náklady; N03 pokrýva, keď na NVLink záleží.
Cesta PCIe je vhodná pre prácu zameranú na inferenciu a väčšinu tréningu krátko pred hranicou. Dávkovanie v režime priepustnosti amortizuje všetky náklady na inferenciu a znižuje ich. Pre jemné dolaďovanie modelov s pevnou veľkosťou je penalizácia nástenných hodín oproti SXM 1.2–1.4× – zvyčajne prijateľná. Pre tenzorovo paralelné trénovanie 70B+ od nuly je penalizácia 2–3× a odpoveď znie: „kúpte si SXM alebo nerobte túto prácu na hardvéri Kentino.“
Útes medzi systémom s jedným a viacerými uzlami
To, čo robí z viacuzlových systémov inú kategóriu, je prepojovací útes medzi vnútrouzlovými a medziuzlovými systémami, čo sa týka šírky pásma a latencie.
| Cesta | Bandwidth | latencia |
|---|---|---|
| GPU-to-GPU, rovnaký PEX prepínač (PCIe Gen5 x16) | ~ 50 GB / s | submikrosekunda |
| Prepínanie medzi GPU a GPU cez koreňový komplex | Zdieľané ~50 GB/s | nízke mikrosekundy |
| 400 Gbps InfiniBand NDR (medziuzlami) | ~ 50 GB / s | 1 – 2 mikrosekúnd |
| 200 Gbps InfiniBand HDR (medzi uzlom) | ~ 25 GB / s | 1 – 2 mikrosekúnd |
| 100 GbE RoCE (medzi uzlami) | ~ 12.5 GB / s | 5 – 15 mikrosekúnd |
| 25 GbE TCP (medzi uzlami) | ~ 3 GB / s | 20 – 50 mikrosekúnd |
V jednej krabici dva grafické procesory komunikujú rýchlosťou ~50 GB/s s medziľahlými skokmi za menej ako mikrosekundu. Pri prepojení medzi uzlami získate ~25 GB/s na 200 Gb/s IB – čo je 2-násobné zníženie na IB, 4–5-násobné zníženie na 100 GbE a 15-násobné zníženie na 25 GbE. Pre kolektívy TP, ktoré využívajú každú transformátorovú vrstvu, to veľmi škodí. K07 má tabuľku časovania so všetkými redukciami.
Latencia to znásobuje: medziuzlový čas je 5 – 15 mikrosekúnd na vyladenom RoCE oproti nanosekundám vo vnútri krabice. Pre trénovanie a predplnenie sa to zaokrúhľuje; pre interaktívnu inferenciu s nízkou latenciou a tesným TP to tak nie je.
Útes je dôvod, prečo „jednoducho pridajte ďalšiu skrinku“ nie je plynulým rozhodnutím. Čokoľvek, čo sotva prežije na PCIe v rámci jedného uzla, neprežije na Ethernete alebo IB medzi uzlami.
Matematika silného škálovania: kde sa to prepadá
Amdahlův zákon: zrýchlenie je ohraničené sériovým zlomkom pracovnej záťaže a pre distribuované trénovanie je tento zlomok komunikačnou réžiou. Pre tréningový krok triedy 70B na hardvéri PCIe triedy Kentino vyzerá efektivita škálovania (priepustnosť na GPU oproti základnej línii pre jeden GPU) v rámci zostavení, ktoré sme dodali, takto:
| konfigurácia | Efektivita na GPU | Užitočný režim |
|---|---|---|
| 1 GPU | 1.00× (základná hodnota) | Vždy |
| 4 GPU, jeden uzol, PCIe Gen5 TP | 0.82 × | Ideálne miesto pre TP |
| 8 GPU, jeden uzol, PCIe Gen5 TP (prepínaný) | 0.73 × | Hranica užitočnosti pre TP |
| 8 GPU, jeden uzol, FSDP / paralelné dáta | 0.88 × | Silný pre DP |
| 2 uzly × 4 GPU, 200 Gb/s IB, TP medzi uzlami | 0.65 × | Bolestivé, zriedka sa to oplatí |
| 2 uzly × 8 GPU, 200 Gbps IB, TP intra / PP inter | 0.74 × | Rozumné pre veľké modely |
| 4 uzly × 8 GPU, 400 Gb/s IB NDR, zmiešaný TP/PP/DP | 0.62 × | Skutočná práca v klastri |
| 2 uzly × 8 GPU, 100 GbE RoCE, len paralelné dáta | 0.84 × | Najlepší obchod s viacerými uzlami pre DP |
Dva postrehy. Po prvé, Rozdelenie úlohy s 8 GPU na dva uzly so 4 GPU je horšie ako jej spustenie na jednom počítači. — každá medziuzlová štruktúra je pomalšia ako PCIe v krabici, ktorú ste už mali. Po druhé, Paralelizmus dát sa v rámci siete Fabric škáluje oveľa lepšie ako paralelizmus tenzorov. Ak vaša skutočná otázka znie „môžem obslúžiť viac požiadaviek“ a nie „môžem spustiť jeden väčší model rýchlejšie“, repliky DP fungujú a fungujú cez komoditnú 100 GbE.
Ak projektovaná efektivita klesne pod 60 %, pracovné zaťaženie pre viacero uzlov na komoditnej štruktúre je nesprávne. Zmeňte architektúru (TP v rámci uzla, PP alebo DP naprieč), kúpte si väčší samostatný uzol alebo si kúpte hardvér triedy SXM. Hrubá sila nefunguje.
Pasca výskumného laboratória a prevádzková daň
Vzor, ktorý vidíme dostatočne často na to, aby sme ho spomenuli: laboratórium plánuje „budúcnosť“ a objedná si dva uzly so 4 GPU namiesto jedného uzla s 8 GPU. V skutočnosti však dosiahnu horšie trénovanie (0.65 × TP medzi uzlami vs. 0.73 × TP v rámci uzla), horšiu inferenciu pre akýkoľvek model, ktorý sa zmestí do jednej škatule, dvojnásobnú prevádzkovú záťaž (dve riadiace jednotky BMC, dve ladenia sieťovej karty, dva stavy pinov ovládača, dve domény zlyhania) a zhruba rovnaké náklady na súčiastky po aktualizácii druhej sieťovej karty, druhého zdroja a prepínača. Najprv si kúpte jeden uzol s 8 GPU.
Viacnásobný uzol, ak je to správna odpoveď, nie je zadarmo. Dodatočná daň:
- Zdieľané úložisko — lokálne NVMe už nestačí. NFS, BeeGFS alebo Lustre a úložná VLAN (K04).
- Asynchrónne rozdelené kontrolné body — synchrónne nerozdelené zápisy do NFS zastavia klaster. PyTorch DCP alebo NeMo je povinný, nie voliteľný.
- Ladenie sieťovej karty a NCCL — Riadenie toku RoCE, PFC, ECN, jumbo rámce, výber transportu NCCL, topologické súbory, algoritmy kruh vs. strom. Každý gombík bude hneď po vybalení zlý.
- Monitorovanie — DCGM na uzol, federácia Prometheus, vyrovnávacie pamäte sledovania NCCL.
- Riešenie porúch — odpojenia uzlov, resetovanie sieťovej karty, zatvorenie portov prepínača. K06 pokrýva režimy; miera zlyhania viacerých uzlov je zhruba N-krát vyššia ako miera zlyhania jedného uzla, obnova je chaotickejšia.
Z hľadiska inžinierskeho času stojí viacero uzlov 4–5× viac za každý pridaný uzol. Počítajte s tým alebo akceptujte, že klaster strávi prvých šesť mesiacov na polovici teoretickej kapacity.
Konkrétny rozhodovací tok
Prejdite si to postupne. Prvé „áno“ ukončí konverzáciu.
- Zmestí sa do modelu 8× 96 GB pri FP8 s 30–40 % rezervou VRAM pre KV? Ak áno, jeden uzol, hotovo.
- Pasuje to na INT4 s rovnakou výškou? Ak áno a robíte inferenciu (nie trénujete), odpoveďou je jeden uzol na INT4. Váhy INT4 nie sú použiteľné pre gradientovú cestu trénovania – pokračujte.
- Je pracovná záťaž viazaná skôr na priepustnosť ako na veľkosť modelu? Ak áno, odpoveďou sú dátovo paralelné repliky konfigurácií s jedným uzlom, nie klaster. Dva boxy za vyrovnávačom záťaže, nie je potrebná žiadna štruktúra (fabric).
- Je pracovná záťaž tenzorovo-paralelným tréningom modelu, ktorý sa nezmestí do jedného uzla? Viacuzlové riešenie s InfiniBand. Efektívnosť škálovania projektu pomocou K07Tabuľka . Pod 60 %, prepracujte architektúru (TP vnútri, PP naprieč) alebo znížte počet uzlov a akceptujte pomalší čas načítania.
- Je predtréningová záťaž modelom s kapacitou 70 miliárd+ od začiatku? Prípad Frontier. Viacuzlový systém s NDR IB alebo SXM. Kentino dokáže zostaviť stranu IB, ale väčšina zákazníkov, ktorí sa pýtajú, túto prácu v skutočnosti nemusí robiť sama.
Prvý a druhý krok tvoria väčšinu trhu. Tretí krok znamená, že rastiete dobre – odpoveďou sú repliky, nie zhluk. Štvrtý a päť krokov sú skutočné, ale zriedkavé.
Úprimný pohľad
Viacuzlové riešenia sú na hranici možností – viac ako 70 miliárd trénovaných dát od začiatku, viac ako 405 miliárd inferencií s produkčnou latenciou, hyperškálovateľné služby s rýchlosťou nad 100 000 QPS alebo výskum, ktorý závisí od dennej priepustnosti, ktorú jeden box nedokáže zabezpečiť. Toto sú skutočné pracovné zaťaženia. Nie sú väčšinou toho, čo sa vytvorí.
Na všetko ostatné je odpoveďou jeden dobre špecifikovaný 8-GPU uzol. Spúšťa každú pracovnú záťaž s otvorenou váhou z roku 2026, ktorá sa zmestí do 768 GB na úrovni FP8/INT4, LoRA a QLoRA až do 405B, plne doladí 13B triedu bez sťažností a škáluje sa na dve alebo tri DP repliky pre priepustnosť bez klastrovej štruktúry. A jeho prevádzka je výrazne jednoduchšia.
S väčšinou zákazníkov vedieme rozhovory v tomto smere: popis pracovnej záťaže, výpočty prispôsobenia, efektivita škálovania projektu. Ak je projekcia klaster, vytvorte klaster. Ak je to jeden uzol, vytvorte jeden uzol. Ak sú to dve repliky za smerovačom, vytvorte ich. Nepredávame najväčšiu konfiguráciu, akú tolerujete – predávame tú, ktorá bude skutočne fungovať.
Čo urobiť ďalej
Ak pred podpisom zvažujete rozsah transakcie:
- Opíšte model a pracovnú záťaž. Počet parametrov, kvantizácia, maximálny počet súbežných používateľov, cieľová latencia, cieľová priepustnosť. Matematika prispôsobenia a šírky pásma z týchto čísel vynecháva; bez nich je odpoveď len odhad.
- Vypočítajte váhy plus vyrovnávaciu pamäť KV pri cieľovej súbežnosti. Zmestí sa 8 × 96 GB s 30 % rezervou → jeden uzol. V opačnom prípade vyhodnoťte viacuzlovú verziu.
- Efektívnosť škálovania projektu pre vašu reálnu konfiguráciu. Použitie K07tabuľka . Hodnota pod 60 % znamená, že je nesprávna architektúra, nie počet uzlov.
- Oddeľte otázku priepustnosti od otázky prispôsobenia modelu. „Viac požiadaviek za sekundu“ je otázka typu „replika“. Dva 8-GPU boxy za routerom prekonajú jeden 16-GPU klaster pre každú nameranú pracovnú záťaž citlivú na latenciu.
- Úprimne zhodnoťte prevádzkovú kapacitu. Bez inžiniera úložiska, sieťového inžiniera a pohotovostnej služby strávi druhý uzol prvý štvrťrok na 50 % teoretickej kapacity, kým ladíte NCCL a BeeGFS.
- Predvolene je nastavený jeden väčší uzol, nie dva menšie. 4-GPU × 2 oproti 8-GPU × 1 patrí do 8-GPU boxu takmer v každom rozmere.
Sprievodné články: K02 (školenie), K03 (inferenčné zhluky), K04 (skladovanie), K06 (riešenie porúch), K07 (Limity PCIe a škálovacia stena), N02 (IB vs. RoCE vs. Ethernet), N03 (NVLink a kedy na tom záleží).
Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.