NVLink a NVSwitch: Kedy na tom záleží a prečo to zvyčajne nie je pre zostavu Kentina

Opakujúca sa otázka v doručenej pošte: zákazník, ktorý si vyberá server s GPU 4× alebo 8×, vidí marketingové chválenie NVIDIA DGX o šírke pásma NVLink v terabajtoch za sekundu a pýta sa, či zostava Kentino „má NVLink“. Úprimná odpoveď je nie, žiadna z našich zostáv ho nemá – a pre pracovné zaťaženie, ktoré zákazník skutočne má, je to v poriadku. Tento článok vysvetľuje prečo.

NVLink je na vrchole ponuky skutočne pôsobivý a inde chýba. Marketing nestanovuje jasnú hranicu, takže kupujúci buď preplatia za sieť, ktorú nepotrebujú, alebo si kúpia menej v domnení, že PCIe je len stupňovitým znížením funkcie vo všetkých oblastiach. Ani jedno nie je pravda. Hranica je ostrá a nachádza sa na konkrétnom mieste.

Čo je vlastne NVLink

NVLink je bodové prepojenie GPU-GPU s vysokou šírkou pásma, ktoré obchádza koreňový komplex PCIe hostiteľa. Dve GPU s pripojením NVLink presúvajú tenzory priamo cez linku bez toho, aby sa presúvali cez pamäť CPU a bez toho, aby súperili s čímkoľvek iným v strome PCIe. To je celá myšlienka.

Výhoda šírky pásma oproti PCIe je značná. PCIe Gen5 x16 – súčasný strop pre spotrebiteľský slot alebo slot pre pracovné stanice – poskytuje približne 64 GB/s v každom smere, celkovo 128 GB/s. NVLink 5 na B200 a GB200 poskytuje celkovo 1.8 TB/s na GPU, čo je zhruba 14× viac ako slot PCIe Gen5 x16.

Toto porovnanie je zavádzajúce hneď na začiatku, pretože grafické karty s NVLink 5 nie sú grafické karty s primárnym prepojením PCIe Gen5 x16. NVLink sa nachádza v dátových centrách (A100, H100, H200, B200, GB200); PCIe je jedinou cestou v spotrebiteľských a pracovných staniciach (4090, 5090, RTX Pro 6000 Blackwell, L40, L4). „NVLink verzus PCIe“ v praxi znamená „rad H100 verzus zvyšok“.

Generácie NVLink v skratke

Generácie GPU Odkazy na GPU Agregát na GPU rok
NVLink 2 V100 (Volta) 6 300 GB / s 2017
NVLink 3 A100 (ampér) 12 600 GB / s 2020
NVLink 4 H100 / H200 (Zásobník) 18 900 GB / s 2022
NVLink 5 B200 / GB200 (Blackwell, DC) 18 1.8 TB / s 2024

Počet liniek sa z generácie 2 na generáciu 4 zvýšil a potom sa šírka pásma na linku z generácie 4 na generáciu 5 zdvojnásobila (z 50 GB/s na 100 GB/s). Preto NVLink 5 vyzerá ako zásadná zmena – a aj je.

PCIe v zostave Kentino:

štandard 16 na smer Agregát x16
PCIe Gen4 x16 32 GB / s 64 GB / s
PCIe Gen5 x16 64 GB / s 128 GB / s

V najhoršom prípade (Gen4) je PCIe ~1/14 NVLink 4. V najlepšom prípade (Gen5) je PCIe ~1/14 NVLink 5. Pomer je zhruba konštantný vďaka dizajnu NVIDIA.

Úprimná časť: Kentinova zostava nemá NVLink

GPU Tvarový faktor NVLink?
RTX 4090 PCIe Nie
RTX 5090 PCIe Nie
RTX Pro 6000 Blackwell (WS/Server/Max-Q) PCIe Nie
L40 / L40S PCIe Nie
L4 PCIe Nie
Intel ArcPro B70 PCIe n / a

NVIDIA odstránila prepojovací mostík NVLink zo spotrebiteľských grafických kariet GeForce, počnúc Adou Lovelace. 3090 bola poslednou spotrebiteľskou kartou s funkčným mostíkom; 4090 ho zrušila a 5090 žiadny nemá. Uvedeným dôvodom bolo, že „používatelia chcú šírku pásma v rámci jednej grafickej karty, nie medzi dvoma“ – čo sa pohodlne zhodovalo s tým, že zákazníci platili ceny dátových centier za šírku pásma medzi grafickými kartami.

Zaujímavým prípadom je RTX Pro 6000 Blackwell – 96 GB karta pre pracovnú stanicu a server na rovnakom kremíku Blackwell ako B200, čo je zjavná voľba pre „serióznu pamäť GPU bez prechodu na B200“. Tiež nemá NVLink. Ani na pracovnej stanici, ani na serveri, ani na Max-Q. Na doske plošných spojov nie je žiadny mostíkový konektor. V technických listoch NVIDIA sa uvádza, že NVLink nie je podporovaný vo všetkých troch SKU.

Toto je zámerná segmentačná línia. NVLink znamená prechod na H100, H200, B200 alebo GB200 – tvarový faktor SXM, základná doska HGX, iné šasi, iné chladenie, alokácia, ktorú Kentino nemá. Ak NVLink skutočne potrebujete, obráťte sa na dodávateľa systému HGX.

Čo stratíte bez NVLinku

Penalizácia sa prejavuje v dvoch špecifických vzorcoch pracovnej záťaže:

  1. Tenzorový paralelizmus medzi GPU. Keď je model príliš veľký pre jednu grafickú kartu a rozdelíte váhovú maticu každej vrstvy medzi karty, každá transformačná vrstva vyžaduje AllReduce naprieč shardmi. AllReduce je citlivý na šírku pásma a latenciu. PCIe je úzkym hrdlom.
  2. Distribuované trénovanie s jemnozrnnou gradientovou synchronizáciou. Trénovanie v štýle DDP, FSDP a Megatron vykonáva gradient AllReduces v každom kroku. Čím menší je výpočet na krok a čím väčší je model, tým viac prepojenie dominuje nástenným hodinám.

Všetko ostatné – inferencia na jednom GPU, paralelizmus pipeline, paralelizmus dát, embeddingy, vizuálna inferencia, ASR, TTS, generovanie difúznych obrazov, jemné doladenie modelu, ktorý sa zmestí na jeden GPU – beží na PCIe bez problémov. NVLink je irelevantný.

Namerané škálovanie TP pre LLM triedy 70B na INT4/INT8 z publikovaných benchmarkov 3090/4090/L40S:

konfigurácia Škálovanie TP Poznámky
2× GPU, NVLink (3090 + mostík) ~0.90–0.95 Takmer lineárne
2× grafická karta, PCIe Gen4 ~0.60–0.70 Významná strata AllReduce
2× grafická karta, PCIe Gen5 ~0.65–0.75 Lepšie, stále úzke hrdlo
4× grafická karta, PCIe Gen5 ~0.50–0.65 Rastúce náklady AllReduce
8× grafická karta, PCIe Gen5 ~0.40–0.55 TP sa stáva bolestivým

Čítajte ako rozsahy, nie ako sľuby – presné čísla závisia od modelu, veľkosti dávky, dĺžky sekvencie, kvantizácie, topológie NUMA a umiestnenia slotov. Tvar je reálny: tenzorový paralelný prístup PCIe sa škáluje sublineárne a penalizácia rastie s počtom GPU. Preto vlastná dokumentácia vLLM odporúča pipeline paralelný prístup namiesto tenzorového paralelného prístupu na systémoch iba s PCIe nad dvoma GPU.

Praktická náhrada: ponechajte model na jednej grafickej karte

Podceňovaný fakt o súčasnom vývoji GPU: RTX Pro 6000 Blackwell má na jednej karte 96 GB VRAM – dosť na to, aby v jednej GPU s vyrovnávacou pamäťou KV hostila 70B na úrovni INT4 alebo INT8. Ak sa vôbec vyhnete rozdeleniu modelu medzi GPU, NVLink je bezpredmetný.

Modelka Quant VRAM Jeden Pro 6000?
7B/8B INT4 ~5 GB Áno, veľa kópií
13B INT4 ~9 GB Áno, veľa kópií
32B INT4 ~20 GB Áno, 4× súbežne
70B (Láma 3.3, Qwen) INT4 ~42 GB Áno, plus KV vyrovnávacia pamäť
70B INT8 ~75 GB Áno, tesné
Qwen2.5-VL 72B INT4 ~48 GB Áno
405B (Láma 3.1) INT4 ~240 GB Nie — 3 karty
Mixtral 8×22B INT4 ~80 GB Tesné, jedna karta

Hosting jednej karty je v roku 2026 správnou architektúrou pre takmer každý model, ktorý sa oplatí obsluhovať. Výnimky: veľmi veľké husté modely (405B, GPT-OSS 120B) a rozloženia MoE, kde aktívna expertná sada sa zmestí pre jednu kartu, ale sada s plnou váhou nie.

Pre viacero kariet na PCIe je správnou voľbou paralelizmus potrubia, nie tenzorový paralelizmus. Paralelný prenos v kanáli rozdeľuje vrstvy na dlhé súvislé bloky (GPU 0 obsahuje vrstvy 0–39, GPU 1 obsahuje vrstvy 40–79 atď.). Prevádzka medzi GPU je iba aktivačný tenzor na hranici každého bloku – niekoľko stoviek KB na token, nie gigabajtov na vrstvu.

Režim paralelnosti Prevádzka medzi GPU na vrstvu Citlivé na prepojenie?
Tenzorová rovnobežka Aktivácia × skrytá stmievateľná, každá vrstva Áno — chce NVLink
Paralelné potrubie Aktivácia iba na hraniciach blokov Nie – PCIe je v poriadku
Paralelné dáta Prechody na hranici kroku (iba tréning) Stredne
Expertný paralelný program (MH) Všetkým na expertnej trase Áno – NVLink pomáha

Na serveri 8× 5090 obsluhujúcom 70B sa model nerozdeľuje medzi všetkých osem kariet. Spúšťajú sa dve inštancie so 4-cestným pipeline paralelne, alebo štyri inštancie s 2-cestným pipeline, alebo – najčastejšie – osem nezávislých inštancií menšieho modelu za vyrovnávačom záťaže. Server 8× sa stáva multiplikátorom priepustnosti s ôsmimi replikami, a nie jednou obrovskou virtuálnou GPU. Pre produkčnú inferenciu je architektúra repliky zvyčajne správnou odpoveďou bez ohľadu na dostupnosť NVLink: väčšia súbežnosť, elegantná degradácia pri zlyhaní karty.

Keď na NVLink skutočne záleží

Pracovné zaťaženia, kde absencia NVLinku predstavuje skutočný problém, nie marketingový problém:

  • Trénovanie modelu, ktorý sa nezmestí na jeden GPU. Predtrénovanie alebo úplné doladenie modelu s hustotou 70B+ vyžaduje rozdelenie modelu medzi grafické procesory s gradientným AllReduces v každom kroku. NVLink predstavuje rozdiel medzi produktívnym 8-GPU systémom a štyrmi kartami, ktoré väčšinou čakajú na zbernici.
  • Tenzorová paralelná inferencia na veľmi veľkých hustých modeloch. Ak potrebujete 405B obsluhovaných naprieč GPU a nemôžete akceptovať latenciu na token paralelne s pipeline, NVLink je dôležitý.
  • MoE s expertným smerovaním medzi grafickými procesormi. MoE all-to-all je na PCIe brutálne. DeepSeek-V3, Mixtral 8×22B a podobné dizajny s hustým pripojením cez MoE z toho jednoznačne profitujú.
  • Vysokofrekvenčné slučky RLHF / GRPO. Synchronizácia politík/referencií opakovaná tisíckrát za epochu dosahuje rovnaké náklady AllReduce.
  • Trénovanie difúzie na viacerých GPU vo veľkom meradle. Niektoré väčšie modely difúzie videa majú aktivačné vzory podobné tenzorovo paralelným.

Ak je vaša pracovná záťaž na tomto zozname, nekupujte si server Kentino 8× 5090 a neočakávajte správanie DGX H100. Kúpte si systém HGX alebo si prenajmite H100/B200 v cloude na tréningovú fázu a preneste váhy späť do lokálnej siete pre inferenciu. To je úplne rozumný pracovný postup a otvorene ho odporúčame.

NVSwitch: tkanina na úrovni šasi

NVLink je bod-bod – GPU A ku GPU B cez zväzok liniek. Nad dvoma GPU v šasi buď pridelíte každému páru vlastný vyhradený NVLink (neškáluje sa nad štyri), alebo umiestnite prepínač NVLink do stredu. Týmto prepínačom je NVSwitch od spoločnosti NVIDIA.

Na základnej doske HGX H100 s 8 GPU poskytujú štyri čipy NVSwitch každej GPU plnú šírku pásma NVLink 4 ku každej ostatnej GPU – 900 GB/s, všetky ku všetkým, bez konfliktu. V racku GB200 NVL72 sa NVSwitch škáluje na 72 GPU v jednej neblokujúcej topológii, 1.8 TB/s na GPU, 130 TB/s spolu. NVSwitch je to, čo umožňuje fungovaniu „jednej veľkej virtuálnej GPU“; bez neho je NVLink len rýchlejší párový kábel.

praktické:

  • Žiadny NVSwitch v žiadnej zostave Kentina. NVSwitch sa dodáva iba v šasi HGX a DGX s certifikáciou NVIDIA. Do šasi Supermicro alebo Bone64c sa neinštaluje žiadny aftermarketový čip.
  • Žiadny NVSwitch v žiadnej RTX karte, nikdy. Iba pre dátové centrá.
  • GB200 NVL72 je určený pre rackové, nie serverové zariadenia. 72 GPU spolupracuje prostredníctvom medeného kábla NVLink s rýchlosťami backplane. Káble, prepínače, backplane sú všetko proprietárne od NVIDIA. Cena sa pohybuje v miliónoch amerických dolárov s dodacími lehotami v priebehu niekoľkých štvrťrokov. Špičková hodnota toho, čo NVLink umožňuje v roku 2026. Nie pre nás.

Cena a dostupnosť

Systémy s podporou NVLink sú vo vlastnej cenovej kategórii. Približný trh v polovici roka 2026, USA/EÚ:

Systémová trieda GPU Cenové pásmo v katalógu Dodacia lehota
4× RTX 5090 (trieda Kentino) 4 25 40 – XNUMX XNUMX € 2 – 4 týždňov
8× RTX 5090 (trieda Kentino) 8 50 80 – XNUMX XNUMX € 3 – 6 týždňov
4× RTX Pro 6000 Blackwell 4 60 90 – XNUMX XNUMX € 3 – 6 týždňov
8× RTX Pro 6000 Blackwell 8 120 180 – XNUMX XNUMX € 4 – 8 týždňov
HGX H100 SXM (8× H100, NVSwitch) 8 250 350 – XNUMX XNUMX € 8 – 16 týždňov
HGX B200 SXM (8× B200, NVSwitch) 8 400 550 – XNUMX XNUMX € 12 – 24 týždňov
GB200 NVL72 (72× B200) 72 3 miliónov € – 4 miliónov € a viac 6-12 mesiacov

Cenový rozdiel medzi zostavou Kentino 8× Pro 6000 a HGX H100 je zhruba 2× pri rovnakom nominálnom počte GPU. Výkonnostný rozdiel pre úlohy nezávislé od NVLink je oveľa menší ako 2×. Pre prácu závislú od NVLink (trénovanie veľkých modelov, tenzorové paralelné operácie na 405B) je H100 tým správnym nástrojom a cena je opodstatnená. Základné pravidlo: ak sa vaša úloha zmestí na jednu 96 GB GPU, zostava Pro 6000 ušetrí viac ako 50 % rozpočtu. Ak nie, zaplaťte si za NVLink.

zhrnutie

Otázka Odpoveď na zostavu Kentina
Máš aktuálnu kartu s NVLinkom? Nie
Existuje nejaká aktuálna zostava s NVSwitch? Nie
Tenzorovo paralelný s 70B? Áno, ~0.6–0.7× penalizácia škálovania oproti PCIe
Paralelné s potrubím a 70B? Áno, takmer lineárne
Zmestiť 70B na jednu kartu? Áno — RTX Pro 6000 Blackwell, 96 GB
Trénovať 70B od nuly? Nie efektívne – prejdite na cloud alebo HGX
Podávajte hustotu 405B? Iba paralelné pripojenie k pipeline medzi 3+ Pro 6000
Ministerstvo životného prostredia vo veľkom meradle? Menšie MoE áno; trieda DeepSeek nie
Vytvoriť ekvivalent DGX? Nie

Čo urobiť ďalej

Ak určujete veľkosť systému a nie ste si istí, či potrebujete NVLink, riešte problém v tomto poradí:

  1. Zapíšte najväčší model, ktorý potrebujete obslúžiť, s kvantizáciou. Ak sa to zmestí na jednu GPU, NVLink je irelevantný. Prestaň.
  2. Ak to nesedí, opýtajte sa, či je prijateľné paralelné zapojenie potrubia. Pipeline pridáva latenciu na token, ale priepustnosť je v poriadku. Pre dávkovú inferenciu a väčšinu úloh chatu je to prijateľné.
  3. Ak paralelné potrubie nie je prijateľné (Na veľmi veľkom modeli potrebujete minimálnu latenciu jedného streamu), potrebujete tenzorový paralelný systém. Na PCIe platíte daň vo výške 30 – 50 %. Ak vám táto daň nevyhovuje, NVLink sa oplatí upgradovať systém.
  4. Ak trénujete, odpoveďou je takmer vždy NVLink. Trénovanie hustých modelov nad 13B na PCIe je zlé využitie hodín GPU. Prenajmite si NVLink v cloude alebo si kúpte HGX.
  5. Pre záver je zvyčajne správnou odpoveďou jednokartová Pro 6000 Blackwell alebo viacrepliková 4×/8× 5090. Toto si kupuje väčšina našich zákazníkov a funguje to.

NVLink nie je zlý. Je vynikajúci v tom, čo robí. NVIDIA nakreslila pevnú čiaru segmentácie a pod touto čiarou je správna architektonická odpoveď „hostiť menšie modely, replikovať horizontálne, použiť paralelný pipeline, keď je potrebné rozdeliť.“ Na to je zostava Kentino vytvorená.

Následné kroky: InfiniBand a RoCE pre prepojenie na úrovni klastra (N02), prepínané topológie klastrov (N04) a PCIe-as-interconnect pre malé klastre (K07).


Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.