Bezprepínacie topológie: Mesh, Ring a Direct-Connect pre malé klastre umelej inteligencie

32-portový 400 GbE prepínač s optikou, rozbočovacími bodmi a softvérovými oprávneniami na jeho skutočné používanie sa v polovici roka 2026 dostane niekde medzi 40 000 a 80 000 EUR a 64-portový NDR prepínač InfiniBand je na tom horšie. Pre zákazníka, ktorý si zostavuje tréningové zariadenie s dvoma až štyrmi uzlami, môže prepínač stáť viac ako grafické karty v jednom z uzlov. Taktiež pridáva skok v latencii, jediný bod zlyhania, samostatný životný cyklus firmvéru a ladenie PFC/ECN v hodnote malého projektu, ak používate RoCE.

Fakt, o ktorom takmer nikto nehovorí, je, že pod približne ôsmimi uzlami prepínač vôbec nepotrebujeteSieťové karty môžete priamo prepojiť káblom, úplne sa vyhnúť prepínaniu a získať niečo jednoduchšie, lacnejšie a o niečo rýchlejšie. Faktom, ktorý takmer nikto nepriznáva, je, že nad zhruba ôsmimi uzlami bez prepínača padá z útesua kabeláž, počet portov a prevádzkový príbeh prestávajú byť obhájiteľné. Tento článok tento rozsah poctivo mapuje.

Je to spoločník pre N04 (prepínané topológie). Čítanie N06 pre matematiku latencie, na ktorej je postavené víťazstvo bez prepínača, a K07 ako vyzerá jeden základný uzol – stavebný blok, ktorý tento článok spája.

Argumenty pre bezprepínačové systémy

Štyri veci, ktoré získate zadarmo odstránením prepínača:

  1. Nulová latencia prepínania. Moderný priechodný ethernetový prepínač s umelou inteligenciou spotrebuje 400 – 600 ns na skok. Prepínač NDR InfiniBand spotrebuje menej ako 100 ns. Priamy kábel NIC-NIC pridáva oneskorenie vodiča (~ 5 ns/m na meďi, to isté na optickom vlákne) a nič viac. Na dvojuzlovom ping-pongovom prepojení sa tým znižuje jednosmerná latencia z ~ 2 µs na ~ 1.2 – 1.5 µs.
  2. Nulové náklady na prechod. Dvojuzlové priame pripojenie pozostáva z dvoch sieťových kariet a jedného DAC. Trojuzlový trojuholník pozostáva z troch sieťových kariet a troch DAC. Úspora kapitálových nákladov v porovnaní s malým 100 GbE prepínačom s optikou QSFP28 je pri malej zostave reálna – 10 000 až 30 000 eur, ktoré sa vracajú do grafických kariet.
  3. Žiadne bolesti hlavy z PFC/ECN. Priame prepojenie medzi sieťovými kartami je typu point-to-point – riadenie toku je konverzácia medzi dvoma stranami, PFC degeneruje na „povedať peerovi, aby prestal“. Neexistuje žiadna patológia šírenia pauzy v celej sieti fabric, pretože neexistuje žiadna fabric.
  4. Jedna trieda zariadení na ladenie. Keď sa niečo pokazí na neprepínacej štruktúre (fabric), zoznam podozrivých obsahuje dve sieťové karty, jeden kábel a ovládače jadra na oboch koncoch. To je malý, konečný vyhľadávací priestor.

Dvojuzlové puzdro: stačí ich zapojiť dokopy

Toto je najčistejšie možné nastavenie AI klastra a také, kde je bezspínačové nastavenie jednoznačne správne.

Uzol A — K-AI 256
  • 8× RTX 5090
  • ConnectX-7 OSFP (400 Gb/s)
400G DAC (pasívny, ≤3 m)
Uzol B — K-AI 256
  • 8× RTX 5090
  • ConnectX-7 OSFP (400 Gb/s)

Priame pripojenie dvoch uzlov: jeden pasívny OSFP DAC, bez prepínača, latencia RDMA ~0.8–1.2 µs, použiteľná priepustnosť ~50 GB/s na smer.

Jeden OSFP DAC medzi dvoma sieťovými kartami ConnectX-7 s rýchlosťou 400 Gb/s. To je celá medziuzlová štruktúra. Tie isté sieťové karty, ktoré by vo väčšej zostave smerovali k prepínaču, sú namiesto toho umiestnené oproti sebe. Slovné spojenia RDMA fungujú, NCCL ich zachytáva automaticky, GPUDirect RDMA beží bez zmeny.

Čo získate: ~50 GB/s na smer použiteľné, latencia RDMA submikrosekundová (ib_send_lat dosahuje približne 0.8–1.2 µs), jeden kábel. Žiadny problém s agregáciou, pretože nie je čo agregovať. Žiadne nadmerné predplatné, pretože neexistuje bod rozvetvenia.

Pre tréningový pár s dvoma uzlami – najbežnejšiu zostavu typu „prerástol som z jednej krabice“ v našej zákazníckej základni – je toto správne riešenie. Preskočte prepínač. Spojte ich dohromady. Ušetrené peniaze investujte do väčšej vrstvy NVMe alebo druhého portu sieťovej karty pre redundanciu.

Praktické vylepšenie: použite dvojitý port ConnectX-7 a spustiť dva paralelné 200 Gb/s DAC medzi zariadeniami s NCCL nakonfigurovaným na používanie oboch HCA (NCCL_IB_HCA=mlx5_0,mlx5_1). Stratíte trochu špičiek na tok, ale získate redundanciu cesty a o niečo lepšie správanie pri malých správach z paralelných párov frontov. Toto predvolene používame pri zostaveniach s dvoma uzlami.

Tri a štyri uzly: trojuholník a K₄

Tri uzly sú najmenším prípadom, kde topológia začína hrať úlohu. Možnosti sú:

  • Lineárny reťazec (ABC). Dva káble. Priemer 2. Uzol B je hotspot – všetka prevádzka z bodu A do bodu C ním prechádza. Vyhnite sa mu.
  • Trojuholník (plná sieťovina). Tri káble. Priemer 1. Každý uzol má dva porty. Každý tok je jeden skok. Toto je správna odpoveď.
Trojuholník (3 uzly, K₃) A B C 3 spojov · 2 porty/uzol · priemer 1 K₄ plná sieť (4 uzly) A B D C 6 spojov · 3 porty/uzol · priemer 1

Vľavo: trojuholník (K₃) — 3 uzly, 3 káble, priemer 1. Vpravo: K₄ plná sieť — 4 uzly, 6 káblov, priemer 1. Každý pár je priamo pripojený.

Zaujímavé je to so štyrmi uzlami. Celá sieť – kompletný graf K₄ – má celkovo šesť liniek, tri porty na uzol a priemer 1. Každý uzol dosiahne každý druhý uzol presne v jednom skoku. Matematika kabeláže:

uzly Plne sieťované články Porty na uzol priemer
2 1 1 1
3 3 2 1
4 6 3 1
5 10 4 1
6 15 5 1
7 21 6 1
8 28 7 1

Plný počet portov siete na uzol je N-1, a preto tento prístup rýchlo padá. Pri ôsmich uzloch potrebujete sedem portov na box, čo je koniec praktickej cesty na jednom slote PCIe Gen5 x16.

Kedy je štvoruzlová full mesh sieť lepšia ako malý prepínač? Konkrétne, keď máte 4× K-AI 128 uzly pre inferenciu a chcete ich pevne prepojiť, používate RoCE a nechcete PFC na prepínači a marginálna cena 15 000 – 25 000 EUR za 100 GbE prepínač s optikou je v rámci rozpočtu zmysluplná.

Kedy malý prepínač vyhrá, aj keď so štyrmi uzlami? Kedy by ste mohli v budúcom štvrťroku pridať piaty uzol? Pridanie jedného uzla do siete K₄ vyžaduje prekáblovanie každého existujúceho uzla, aby sa pridali nové porty. Prepínač má náhradné porty; stačí ich zapojiť.

Prípad s 8 uzlami: hyperkocka, označená hviezdičkou

Trojkocka (Q₃) – hyperkocka s rozmerom 3 – je učebnicové bezprepínačové rozloženie pre osem uzlov. Každý uzol sa nachádza v jednom rohu kocky; každá hrana kocky je priamym prepojením. Tri porty na uzol, spolu dvanásť prepojení, priemer 3.

000 001 010 011 100 101 110 111 3-kocka Q₃: 8 uzlov · 12 spojení · 3 porty/uzol · priemer 3 Grayov kód – každá hrana sa líši presne o jeden bit
Majetok Hodnota
uzly 8
Odkazy 12
Porty na uzol 3
priemer 3
Šírka pásma bisekcie 4 vľavo

Úprimný názor: toto je vo výrobe zriedkavé. Funguje to, najhorší prípad s priemerom 3 je prijateľný pre väčšinu kolektívov, ale schéma zapojenia je skutočne mätúca pre každého, kto ju nestaval, riešenie problémov vyžaduje pochopenie označovania Grayovým kódom a malý 16-portový 200 GbE prepínač je teraz v rovnakej cenovej kategórii ako ďalšie porty a káble sieťovej karty. 8-uzlová hyperkocka je zaujímavejšia ako výučbový príklad než ako vec, ktorú dodávame. Pri ôsmich uzloch je naším predvoleným odporúčaním prepínač.

Prsteň: hlúpy, jednoduchý a prekvapivo relevantný

Zabudnite na minimalizáciu priemeru. Kruh spája každý uzol iba s jeho dvoma susedmi: ABCD-...-A. Dva porty na uzol bez ohľadu na veľkosť klastra. Celkom N liniek. Priemer N/2.

A B C D H G F E 8-uzlový kruh: 8 liniek · 2 porty/uzol · priemer 4 · NCCL kruhové mapy allreduce priamo

Toto znie hrozne – priemer 4 na 8 uzloch, priemer 16 na 32 uzloch. Prečo to nie je vždy nesprávne?

Pretože NCCL-ov prstenec allreduce mapuje presne na fyzický prstenecAlgoritmus odošle každý blok dát raz okolo kruhu za fázu; ak je fyzická topológia už kruh, algoritmus beží rýchlosťou linky jedného spoja bez plytvania šírkou pásma. Predvolená hodnota NCCL pre stredne veľké až veľké správy je kruh, nie strom, pretože kruh dosahuje optimálnu hranicu šírky pásma: 2(N-1)/N × link bandwidth pre allreduce. Pri veľkých veľkostiach správ nezáleží na priemere fyzickej topológie – dôležité je, aby sa každé spojenie používalo paralelne a kruh to robí perfektne.

Pragmatické miesto, kde je fyzický kruh správnou odpoveďou bez prepínačov, je Tréningové súpravy so 4–8 uzlami, kde každý uzol má už presne dva RDMA portyHáčik: kruh nemá redundanciu cesty. Jeden chybný kábel rozdelí klaster na dve časti.

Keď bezvýchodiskový systém porazí malý východiskový systém, v číslach

topológia uzly Odkazy Porty/uzol priemer Bisekcia (odkazy)
Priame pripojenie 2 1 1 1 1
Trojuholník (K₃) 3 3 2 1 2
K₄ plná sieťovina 4 6 3 1 4
4-uzlový krúžok 4 4 2 2 2
8-uzlový krúžok 8 8 2 4 2
8-uzlová kocka Q₃ 8 12 3 3 4
16-uzlový Q₄ 16 32 4 4 8
8-uzlová hviezda (prepínaná) 8 8 1 2 závisí od prepínača

Približné porovnanie cien pre 8-uzlovú sieťovú konštrukciu, polovica roka 2026 (EUR bez DPH):

Prístup Potrebné sieťové karty Káble Prepínač Celkové pásmo
8-uzlová, jednoprepínačová 200 GbE hviezda 8× jednoportový 200 GbE 8× DAC ~18 000 – 28 000 € 25 000 – 35 000 €
8-uzlový krúžok, bez prepínača 8× dvojportový 200 GbE 8× DAC nikto 15 000 – 22 000 €
8-uzlová kocka Q₃, bez prepínačov 8× trojportový ekvivalent 12× DAC nikto 18 000 – 26 000 €
4-uzlová sieťovina K₄, bez prepínača 4× trojportový ekvivalent 6× DAC nikto 9 000 – 13 000 €
4-uzlový, malý 100 GbE prepínač 4× jednoportový 100 GbE 4× DAC ~8 000 – 12 000 € 11 000 – 16 000 €
2-uzlový priamy 2× jednoportový 400 GbE 1× DAC nikto 3 000 – 5 000 €

Prechod, pri ktorom sa prepínač zaplatí, je okolo 6 – 8 uzlov, v závislosti od úrovne šírky pásma a od toho, či plánujete rásť.

Uplink: časť, na ktorú ľudia zabúdajú

Dátová infraštruktúra bez prepínačov je vnútorne samostatná. Sama o sebe nie je pripojená k ničomu. Klaster stále potrebuje uplink pre sťahovanie dátových súborov a modelov z podnikového úložiska, SSH z vývojárskych pracovných staníc, telemetriu do Prometheus/Grafana, správu IPMI/BMC a prevádzku registra kontajnerov.

Vzor A – každý uzol má samostatnú riadiacu sieťovú kartu. Každý uzol nesie jeden malý 25 GbE (alebo dokonca 10 GbE) port k lacnému prepínaču správy, úplne nezávisle od RDMA fabric. Toto je takmer vždy správna odpoveď. RDMA fabric je sterilné, bezstratové a vyladené prostredie; rovina správy je normálna ethernetová sieť s normálnou prevádzkou. Zmiešajte ich a prevádzka správy naruší vaše kolektívy.

Vzor B – vyhradený uzol uplinku. Jeden uzol v klastri má extra port, ktorý sa pripája von. Ostatné uzly sa do vonkajšieho sveta pripájajú cez tento uzol. Funguje to pre obmedzené rozpočty a malé laboratórne zostavy, ale uzol uplink sa stáva úzkym hrdlom pre čítanie súborov údajov a jediným bodom zlyhania pre prístup správy.

Tvrdá stena v ~16 uzloch

Bezspínač zomrie nad 16 uzlami z troch nezávislých dôvodov, z ktorých ktorýkoľvek je postačujúci:

  1. Počet portov na uzol. Plná sieťovina chce N-1 porty na uzol. Hyperkocka chce log₂(N)Dokonca aj škálovanie protokolov znamená, že 16 uzlov potrebuje 4 porty na uzol, čo je na hranici praktickej hustoty sieťových kariet na jednom slote PCIe Gen5 x16. 32 uzlov potrebuje 5 portov na uzol – viacero slotov, viacero umiestnení NUMA na správu.
  2. Kombinatorika kabeláže. 16-uzlová sieť K₄ s plnou sieťou má 120 káblov. 16-uzlová hyperkocka Q₄ ich má 32. V každom prípade je dôležité označovanie, dokumentácia a fyzický prístup ku každému káblu. Nájdenie jedného nesprávne zapojeného kábla v 32-káblovej hyperkocke trvá hodiny.
  3. Operačný príbeh. Výmena chybnej sieťovej karty v neprepínacej sieti vyžaduje identifikáciu káblov N-1 (alebo log N), ktoré ju pripájali, a presmerovanie každého z nich do konkrétneho portu na náhradnej karte. Rozdiel medzi MTTR a prepínanou sieťou je reálny.

Úprimné zhrnutie: bezspínačové riešenie je to pravé pre 2 až 4 vyhradené uzly, obhájiteľné pre 5 až 8 uzlov s jasným záväzkom „nebudeme rásť“a chyba pre 9 alebo viac uzlovVo veku 9+ si kúpte vypínač.

Dve betónové stavby, ktoré stoja za zmienku

2× K-AI 256 Turín Dual, priamo pripojený, 400G. Dva 8-GPU uzly EPYC Turin (5090 alebo RTX Pro 6000 Blackwell), každý s jednoportovým ConnectX-7 400 GbE / NDR, jedným 3 m pasívnym OSFP DAC medzi nimi. Celkové náklady na hardvér medzi uzlami: ~4 000 EUR. Zbernica NCCL allreduce pri veľkých správach: ~45 GB/s. Vhodné pre obojsmernú tenzorovo-paralelnú inferenciu hustého modelu 405B (rozdelenie vrstiev medzi dve krabice) alebo doladenie 70B, ktorý sa celkom nezmestí na jednu krabicu. Varianty tejto zostavy sme už niekoľkokrát dodali. Je nudná, funguje a stojí rádovo menej ako ekvivalentná zostava pripojená k prepínaču.

4× K-AI 128 v priadzi K₄ s plnou sieťovinou, 100G. Štyri jednosocketové uzly EPYC so 4× RTX Pro 6000 Blackwell v každom. Každý uzol nesie trojportové rozloženie sieťovej karty (jeden dvojportový plus jeden jednoportový alebo jeden štvorportový s jedným nevyužitým portom), 100 GbE DAC fabric. Celkom šesť káblov. Šírka pásma bisekcie 400 Gb/s. Používa sa pre tenzorovo-paralelnú inferenciu modelu triedy 70B so 4-cestným rozdelením a plnou aktiváciou prechádzajúcou medzi každým párom. Eliminuje prepínač ako jediný bod zlyhania pre inferenčnú službu a rozpočet zákazníka išiel na GPU namiesto prepínacieho zariadenia. Kompromis: uzamknuté na štyroch uzloch; rozširovanie si vyžaduje prepracovanie architektúry.

Keď víťazí bezprepínač

  • 2 uzly — vždy bez prepínačov. Žiadny skutočný argument pre zmenu.
  • 3 uzly — trojuholník bez prepínačov. Tri káble, každý uzol o jeden skok ďalej. Triviálne.
  • 4 uzly — bezvýkyvný K₄, ak nebudete rásť, inak malý výkyv. Obe sú obhájiteľné; rozhodujúcim faktorom je predpoklad rastu.
  • 5 až 8 uzlov – zvyčajne prepínaných. Ring je vhodný pre prácu s obmedzenou šírkou pásma, hypercube pre skutočne oddaných. Obe možnosti sú ťažšie obhájiteľné ako kúpa 16-portového prepínača.
  • 9 alebo viac uzlov – prepínané. Vždy. Bezprepínanie za týmto bodom je chyba maskovaná ako úspora.

Ak určujete veľkosť malého klastra AI a položka prepínača poškodzuje kusovník:

  1. Spočítajte uzly, ktoré skutočne potrebujete. Nie „na najbližších päť rokov“. Tento rok a budúci. Ak je úprimná odpoveď 2–4, cesta bez prepínača je reálna a stojí za to ju oceniť.
  2. Namapujte rozloženie sieťovej karty. ConnectX-7 s dvoma portami 200 Gb/s QSFP112 je najbežnejšou súčasťou s priamym pripojením v našich zostavách z roku 2026. Štvorportový SFP56 je možnosťou pre vyšší počet uzlov pri nižšej rýchlosti na port.
  3. Rozhodnite sa pre rastovú polohu. Ak existuje nejaká zmysluplná šanca prekročiť 8 uzlov, kúpte si teraz malý prepínač. Neskôr je prekáblovanie siete naozaj bolestivé.
  4. Naplánujte si rovinu riadenia samostatne. Bezprepínacia dátová štruktúra, prepínaná riadiaca rovina na lacnom 10 GbE. Nezhromažďujte ich do jednej sady káblov.
  5. beh nccl-tests na základe topológie v stave výstavby pred vyhlásením víťazstva. NCCL_DEBUG=INFO Výstup vám povie, ktoré fyzické prepojenia NCCL skutočne používa; porovnajte to s diagramom.
  6. Zdokumentujte kabeláž. Fotografie, štítky portov, jednostránková schéma v racku. Keď prvýkrát o 02:00 zlyhá sieťová karta, budete radi.

Ďalšie články, ktoré si môžete prečítať: N04 pre prepnutú alternatívu, N06 pre analýzu latencie, ktorá ospravedlňuje víťazstvo bez prepínača, N02 pre volanie InfiniBand vs. RoCE, ktoré ovplyvňuje, ktoré sieťové karty si kúpite, a K07 pre základný uzol, ktorý toto všetko spája.


Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.