Prepínané topológie klastrov: Fat-Tree, Leaf-Spine, Dragonfly+, Tesseract
Každý klastrový diagram v balíčku dodávateľa začína rovnako: rad políčok označených ako „uzol“, rad políčok označených ako „prepínač“ a šípky medzi nimi. Diagramy sú zámerne jednoduché, pretože skutočná voľba pod nimi – ktorý topológia s koľko nadmerné predplatné s čo rýchlosť na port – je najväčším nákladovým rozhodnutím v klastri AI po samotných GPU.
Tento článok je topologickou vrstvou medzi N02 (ktorý protokol – InfiniBand, RoCE, obyčajný Ethernet) a N06-N08 (ako sa kábel v skutočnosti správa po zapojení topológie). Zahŕňa štyri rodiny, ktoré budú dôležité v roku 2026: tučný strom / Clos / listová chrbtica, vážka / vážka+, tesseract / hyperkocka, A torus rodina, ktorá prežila v dvoch špecifických kútoch HPC. Končí to úprimným konštatovaním: zhruba deväť z desiatich zákazníkov Kentina nič z toho nepotrebuje a článok existuje pre desiateho.
Cieľová skupina: ľudia, ktorí určujú veľkosť trénovacieho klastra s 8 až 64 uzlami a siete okolo neho. Nie konfiguračná kuchárska kniha Cisco/NVIDIA – mentálny model, ktorý robí kuchársku knihu čitateľnou.
Tri rôzne veci, ktoré ľudia nazývajú „šírka pásma“
Predtým, ako nakreslíme rámčeky a šípky, slovná zásoba. V literatúre o klastrovom predaji sa zamieňajú tri pojmy a nejde o to isté číslo:
| Termín | Čo to vlastne meria | Kde ťa to uhryzne |
|---|---|---|
| Súhrnná šírka pásma | Súčet všetkých kapacít liniek v sieti Fabric. Číslo v liste údajov dodávateľa. | Samotná zbytočná. Agregovaná štruktúra s rýchlosťou 1 TB/s môže byť stále úzkym hrdlom pre jeden tok. |
| Prierezová šírka pásma | Priepustnosť cez ľubovoľný rez látkou. | Skutočná priepustnosť pracovného zaťaženia pri nerovnomernej prevádzke – to, čo meriate počas allreduce. |
| Šírka pásma bisekcie | Prierezová šírka pásma naprieč najhorší rez, ktorý rozdeľuje uzly na dve rovnaké polovice. | Číslo, ktoré určuje, či allreduce dosiahne rýchlosť linky v danom rozsahu. |
32-portový 400 GbE prepínač má rýchlosť 12.8 Tb/s agregát šírku pásma. Pridajte naň 16 uzlov s rýchlosťou 400 GbE každý a máte 3.2 Tb/s rozpolenie šírka pásma (8 uzlov × 400 Gb/s na každej strane rezu). Pre krok allreduce, kde každý zo 16 GPU posiela polovicu svojho gradientu cez bisekciu, je čas kroku vydelený touto hodnotou 3.2 Tb/s – nie 12.8.
Skratka: Šírka pásma bisekcie je jediné z týchto troch čísel, ktoré predpovedá čas tréningového kroku pri pracovnej záťaži s viazanosťou na všetko. Keď sa cenové ponuky v brožúre dodávateľa sčítavajú, v duchu si vezmite najhorší možný variant a podľa toho ich rozdeľte, aby ste sa vrátili k rozpoleniu.
Pre 16-uzlový klaster s 8 GPU v každom (spolu 128 GPU) na uzloch s jednou sieťovou kartou 100 GbE:
| topológia | Agregátna BW | Prierezová hmotnosť (priemer) | Bisekcia BW |
|---|---|---|---|
| Jeden 32-portový 100 GbE prepínač | 1.6 Tb/s | 800 Gb/s | 800 Gb/s |
| Tučný strom, 1:1 (úplná bisekcia) | 3.2 Tb/s | 1.6 Tb/s | 1.6 Tb/s |
| Fat-tree, 2:1 prevyšuje záujem | 2.4 Tb/s | 800 Gb/s | 800 Gb/s |
| Vážka+ (4 skupiny po 4) | 2.0 Tb/s | ~1.0 Tb/s | ~800 Gb/s (najhorší pár) |
| 4D tesseract (bez prepínačov) | 1.6 Tb/s | ~800 Gb/s | 800 Gb/s |
| 3D torus 4×2×2 | 1.5 Tb/s | ~600 Gb/s | 600 Gb/s |
Rovnaký počet uzlov, rovnaká rýchlosť kábla, rôzne čísla v závislosti od toho, čo máte na mysli. Toto je rámcovanie používané vo zvyšku článku.
Tučný strom, Clos, listová chrbtica - to isté v troch prízvukoch
Charles Clos v roku 1953 dokázal, že viacstupňová sieť malých priečnych prepínačov môže byť neblokujúca – akýkoľvek vstup môže dosiahnuť akýkoľvek výstup bez konfliktu – za zlomok ceny jednej obrovskej priečky. Každá moderná sieť dátových centier je nejakým variantom tejto myšlienky. Pomenovanie sa stalo zamotaným:
- A Sieť Clos je matematická štruktúra: vstupná, stredná a výstupná fáza menších prepínačov.
- A tučný strom (Charles Leiserson, 1985) je Closov variant, kde kmene bližšie ku koreňu postupne narastajú, takže šírka pásma bisekcie sa mení s N.
- A zložené Close zabalí výstupnú fázu späť do vstupnej fázy. A listová chrbtica je dvojvrstvový skladaný Clos. Trojvrstvový skladaný Clos s listom, tŕňom a supertŕňom je to, čo väčšina ľudí v praxi nazýva tučný strom.
Dvojvrstvová listová chrbtica: každý list sa pripája ku každej chrbtici. Ľubovoľné dva uzly komunikujú presne v dvoch skokoch. Úplné rozpolenie = žiadne nadmerné predplatné na chrbticovej vrstve.
Každý list sa pripája ku každej chrbtici. Prevádzka typu any-to-any je maximálne list → chrbtica → list, dva skoky. S dostatočnou šírkou pásma chrbtice je štruktúra neblokujúca: každý uzol môže súčasne komunikovať s každým ostatným uzlom rýchlosťou linky.
pomer nadmerného predplatného je gombík, ktorý rozhoduje o cene. Ak má každý list 32 downlikov s rýchlosťou 100 GbE (3.2 Tb/s do racku) a 8 uplikov s rýchlosťou 100 GbE (800 Gb/s z racku), nadmerné predplatné je 4:1 — štyrikrát väčšia šírka pásma do racku ako z neho. Úplná bisekcia znamená 1:1: rovnaký počet uplinku ako downlinku. 2:1 je bežný v dátových centrách na všeobecné účely. 1:1 (úplná bisekcia) je základná línia klastra umelej inteligencie.
| konfigurácia | Listové uplinky | Počet chrbtíc | Približná cena prepínača + optiky (2026) | Bisekcia BW |
|---|---|---|---|---|
| Jeden 64-portový 400 GbE prepínač (jeden rack) | n / a | 1 | ~ 50 XNUMX dolárov | 12.8 Tb/s (jeden stojan) |
| 2-vrstvový listový chrbtový list, prevyšujúci predplatné 4:1 | 8× 100 GbE | 2× 32-portový | ~ 120 XNUMX dolárov | 800 Gb/s |
| 2-vrstvový listový chrbtový list, prevyšujúci predplatné 2:1 | 16× 100 GbE | 4× 32-portový | ~ 180 XNUMX dolárov | 1.6 Tb/s |
| 2-vrstvová listová chrbtica, úplná bisekcia (1:1) | 32× 100 GbE | 8× 32-portový | ~ 280 XNUMX dolárov | 3.2 Tb/s |
| 2-vrstvové, 400 GbE uplinky, plné rozdelenie | 8× 400 GbE | 4× 32-portový | ~ 220 XNUMX dolárov | 3.2 Tb/s, menej káblov |
Cena sa zhruba zdvojnásobí zo 4:1 na 1:1, pretože kupujete dvakrát toľko chrbticových portov a dvakrát toľko optiky. Dôvod, prečo každý seriózny klaster umelej inteligencie platí túto prémiu: Nadmerné predplatné ničí všetko, znižuje priepustnosť. Synchronizované 8-prúdové allreduce na tkanine s predpísaným pomerom 4:1 nebeží štvrtinovou rýchlosťou – kolabuje pod protitlakom PFC (N07) a v praxi môže stratiť 60 – 80 % teoretickej priepustnosti. Matematika hovorí „deliť 4“. Realita hovorí „deliť 5 – 10“.
Referenčná architektúra DGX SuperPOD od spoločnosti NVIDIA špecifikuje trojvrstvový fat-tree s plným rozdvojením na Quantum-2 NDR InfiniBand s rýchlosťou 400 Gb/s na port. Tréningové klastre RoCE publikované spoločnosťou Meta a séria Azure ND od spoločnosti Microsoft budujú rovnaký tvar na ethernete Spectrum-X. Priemysel sa pre tréning umelej inteligencie zameralo na úplne bisekčný tučný stroma vývoj v rokoch 2024 – 2026 rozširuje hrubý strom (400 GbE → 800 GbE na port) alebo ho optimalizuje pre koľajnice (ďalšia časť) bez zmeny základnej topológie.
Fat-tree optimalizovaný pre koľajnice – dialekt špecifický pre umelú inteligenciu
Štandardný fat-tree zaobchádza s každou sieťovou kartou rovnako. Trénovanie AI sa stará o... ktorý Sieťová karta GPU odosiela ktorý gradient, pretože vzorce premávky typu allreduce nie sú jednotné. optimalizované pre koľajnice variant priradí každú GPU v uzle ku konkrétnej „koľajnici“ – vyhradenej ceste medzi listami a chrbticou – a zabezpečí, že i-tá GPU na každom uzle komunikuje iba s i-tou GPU na každom inom uzle prostredníctvom i-tej koľajnice.
Fat-tree optimalizovaný pre Rail: každý slot GPU sa mapuje na vyhradenú nezávislú rovinu chrbtice. Kruh Allreduce na GPU 3 používa iba Rail 3.
Osem nezávislých dvojvrstvových fat-stromov, jeden na slot GPU. Kruh Allreduce na GPU 3 cez 16 uzlov používa iba Koľajnica 3, nikdy sa nekrižuje do iných koľajníc. Výhody: žiadne kolízie ECMP medzi koľajnicami, jednoduchšie smerovanie, nižší radix prepínača na rovinu. Kompromis: úloha, ktorá sa rozprestiera cez sloty GPU (tenzorovo paralelne vo vnútri uzla, dátovo paralelne medzi uzlami), sa aj tak rozdelí cez koľajnice pomocou NCCL, takže topológia pomáha iba vtedy, ak sa pracovná záťaž zosúladí. Pre dátovo paralelný a koľajnicovo-uvedomelý NCCL je to jasná výhra; pre tenzorovo paralelný prechod cez koľajnice sa úspora vyparí.
Vážka a Vážka+ – keď si nemôžete dovoliť tučný strom
Náklady na hrubý strom rastú približne ako N log N – každé zdvojnásobenie počtu uzlov si vyžaduje väčšiu šírku pásma chrbtice a tretia vrstva zdvojnásobuje počet prepínačov na koncový bod. Pre 1024 uzlov je možné zostaviť neblokujúci trojvrstvový hrubý strom. Pre 10 000 uzlov je počet prepínačov a náklady na optiku zahlcujúce. Dragonfly, ktorý navrhli John Kim, William Dally a kol. v roku 2008, bol navrhnutý špeciálne na škálovanie za túto hranicu.
Myšlienka: zoskupiť uzly do skupinyV rámci skupiny sú všetky prepínače husto prepojené (často menšie Clos). Medzi skupinami má každá skupina jedno priame prepojenie s každou inou skupinou. Výsledkom je sieť s priemer 3 (skupinovo-lokálny skok, medziskupinový skok, skupinovo-lokálny skok), ktorý sa škáluje na enormný počet uzlov s oveľa menším počtom diaľkových káblov ako fat-tree.
Vážka: husté vnútroskupinové uzly Clos, jedno globálne prepojenie na pár skupiny. Priemer 3. Škálovateľné na viac ako 1000 uzlov s menším počtom diaľkových káblov ako fat-tree.
Veľká úspora je optické kábleDiaľková optika medzi rackmi je najdrahšou časťou fat-tree. Dragonfly ju nahrádza jedným fat linkom na pár skupín, nie jedným na kombináciu listov a chrbtice. Pre klaster s G skupinami po S uzloch potrebuje fat-tree približne G × S × log(G × S) káblov; dragonfly potrebuje G(G − 1)/2 medziskupinových káblov plus štruktúru na skupinu. Pri G = 32 skupinách po 32 uzloch (celkom 1024) sa počet diaľkových káblov znižuje približne o rád.
Vážka+ (Mellanox, 2017) to vylepšuje pre InfiniBand. Vnútroskupinová štruktúra sa stáva malým dvojdielnym Closom, takže rozširovanie skupiny nevyžaduje prepojenie a medziskupinové prepojenia používajú adaptívne smerovanie, aby sa vyhli preťaženým skupinám. Toto je topológia v Hranice (ORNL, exaskálny AMD MI250X) a El Capitan (LLNL, MI300A) – obe sú zapojené s prepínačmi HPE Slingshot-11 v usporiadaní dragonfly, maximálny priemer troch preskokov, 12.8 Tb/s na prepínač.
Háčik je v tom, režim zlyhania pre malé úlohy, ktoré zahŕňajú skupinyV štruktúre typu „fat-tree“ vidia dva uzly na opačných koncoch klastra rovnakú šírku pásma bisekcie ako dva uzly vzdialené jeden rack (modulo hop count). V štruktúre „vážka“ dva uzly v rôznych skupinách zdieľajú svoje medziskupinové prepojenie s každým ostatným tokom medzi skupinami. Ak vaša tréningová úloha so 16 GPU pristane na 8 uzloch v skupine A a 8 v skupine B, zdieľate jedno medziskupinové prepojenie so všetkými ostatnými, ktorí sa nachádzajú v rovnakej dvojici. Adaptívne smerovanie pomáha; neodstraňuje súperenie.
Praktické dôsledky: Dragonfly funguje skvele pri problémoch s hyperškálovaním (viac ako 1000 uzlov, úlohy dimenzované na zaplnenie skupín) a nie tak dobre pre stredné klastre s rôznymi malými úlohami. Je to nesprávna topológia pre 16-uzlový trénovací klaster – fat-tree je v tomto rozsahu lacnejší a rýchlejší. Je to správna topológia pre 1024-uzlový superpočítač so zmiešanou záťažou.
Tesseract — 4D hyperkocka
Tesseract je 4D hyperkocka: 16 vrcholov, každý spojený s presne 4 susedmi, s priemerom 4 (najdlhšia najkratšia cesta medzi ľubovoľnými dvoma uzlami). Zovšeobecníme na k dimenzií a dostaneme k-kocka: 2k uzly, každý s k priamymi prepojeniami, priemerom k. Smerovanie Hammingovej vzdialenosti – XOR zdrojové a cieľové adresy, prevrátenie jedného bitu po druhom – je triviálne deterministické a vyvažované záťažou pri náhodnej prevádzke.
Tesseract (4D hyperkocka): 16 uzlov, každý so 4 susedmi. Plné čiary = hrany 3D kocky; prerušované čiary = spoje 4. rozmeru. Priemer 4. Každé označenie uzla je 4-bitová adresa; susedia sa líšia presne o jeden bit.
Topológie hyperkociek dominovali masívne paralelným výpočtom v 80. rokoch 20. storočia. Pripojovací stroj CM-2 (Thinking Machines, 1987) mala 65 536 uzlov zapojených do 12-rozmernej hyperkocky. Intel iPSC/2 spúšťal 7D hyperkocky. CM-5 (Thinking Machines, 1991) opustili hyperkocky v prospech fat-tree, pretože prístup s hyperkockou sa neškáloval elegantne nad približne 1024 uzlov – každý nový rozmer zdvojnásobuje počet uzlov a vyžaduje si opätovné prepojenie každého existujúceho uzla.
V roku 2026 sa termín „tesserakt“ stále objavuje na troch miestach, ktoré stoja za rozlišovanie:
- Ako názov výskumného/HPC systému DiRAC. DiRAC Tesseract v EPCC (Edinburgh) je klaster HPE SGI 8600 so 1476 uzlami na platforme Intel Omni-Path. „Tesseract“ je branding; štruktúra je bližšie k fat-tree.
- Ako výskumný termín „riadiacej roviny SDN“ (Tesseract: 4D riadiaca rovina, Yan a kol.). Nesúvisí s fyzikálnou topológiou.
- Ako základná topológia kompaktných bezprepínačových urýchľovacích klastrov. 16-uzlový klaster zapojený ako doslovná 4D hyperkocka má zaujímavé vlastnosti: každý uzol má presne 4 sieťové karty, žiadny centrálny prepínač, deterministické smerovanie, priemer 4. Túto tému si podrobne rozoberieme v N05 (topológie bez prepínačov).
Čo ponúka tesseract v roku 2026: žiadna daň za prepínanie, deterministické smerovanie cez Hammingovu vzdialenosť XOR a nízky priemer (log₂(N)). Čo ho sťažuje: fixné N (musí byť mocninou 2), zložitosť kabeláže rastie s dimenziou, počet sieťových kariet na uzol sa rovná k a moderné kolektívy umelej inteligencie (NCCL kruh/strom) natívne nevyužívajú štruktúru hyperkocky.
Torus — preživší v dvoch špecifických rohoch
k-árna n-kocka zovšeobecňuje hyperkocku: namiesto binárnej adresy s jedným prepojením na dimenziu sa používa mriežka k x k x k s obtáčaním. 3D torus má každý uzol pripojený k 6 susedom (±x, ±y, ±z). 6D torus má 12 susedov.
IBM Blue Gene/L a /P bežal na 3D toruse, škáloval sa na stovky tisíc uzlov, pričom každý uzol mal iba 6 vysokorýchlostných spojení. Fujitsu Tofu (prepojenie počítača K, 2011) to zovšeobecnil na 6D sieť/torus — 158 976 uzlov na Fugaku (aktívne do roku 2026), usporiadané 24×23×24×2×3×2.
Motor Cerebras v mierke doštičiek používa 2D torus na doštičke: každý procesný prvok má 4 susedov, obtáča sa, ~1 ns na skok. To funguje, pretože vodiče na doštičke sú takmer voľné; káble mimo doštičky by neboli.
Prečo torus prehral všade inde: asymetrické cesty a zlé správanie pri nerovnomerných úlohách umelej inteligencie. Moderné úlohy umelej inteligencie (prstenec/strom NCCL, hierarchické algoritmy NVIDIA) predpokladajú jednotnú šírku pásma od ľubovoľného k ľubovoľnému. Torus to porušuje. V roku 2026 torus prežije na troch miestachPrepojenie na doštičke od spoločnosti Cerebras, Fujitsu Fugaku a nástupcovia a vnútro uzlov SXM prostredníctvom NVSwitch. Mimo týchto oblastí je každý nový klaster umelej inteligencie v rokoch 2025 – 2026 uzavretý.
Porovnávacia tabuľka
| topológia | priemer | Bisection BW (16 uzlov, 100 GbE) | Vyžadované prepínače | Káble (približne) | Pomer nákladov oproti tučnému stromu 1:1 | Model rastu |
|---|---|---|---|---|---|---|
| Jediný spínač | 1 | 800 Gb/s (obmedzené prepínačom) | 1× 32-portový | 16 | 0.3 × | Pevný strop na prepínači radix |
| Tučný strom 1:1 (úplná bisekcia) | 2 | 1.6 Tb/s | 2 chrbtice + 2 listy | 64 | 1.0 × | Pridajte listy / tŕne |
| Tučný strom 2:1 | 2 | 800 Gb/s | 2 chrbtice + 2 listy | 48 | 0.7 × | Pridajte listy |
| Vážka+ | 3 | 800 Gb/s (obmedzené skupinovým párovaním) | 4 (2 na skupinu) | 32-40 | 0.6× pri 16 N; prevráti sa pri sile nad 64 N | Pridať skupiny |
| 4D tesseract (bez prepínačov) | 4 | ~800 Gb/s (efektívne) | 0 | 32 | 0.4 × | Zdvojnásobí sa pridaním dim |
| 3D torus (4×2×2, bez prepínačov) | 4 | ~600 Gb/s | 0 | 48 | 0.5 × | Akákoľvek obdĺžniková veľkosť |
Klaster uplink – ako sa topológia stretáva s vonkajším svetom
Prepínaná štruktúra (fabric) je ostrov. Musí sa pripojiť k podnikovej sieti (registre modelov, úložisko dátových súborov, S3, telemetria), k vývojárskym pracovným staniciam (SSH, Jupyter, kopírovanie kontrolných bodov) a k iným klastrom (tréning → inferencia). Toto pripojenie je... klastrový uplink.
Dva modely s veľmi odlišnými dôsledkami:
Jeden bod vzostupného pripojenia. Dvojica chrbticových prepínačov (alebo vyhradený uplink router) ukončí všetku externú konektivitu. Jednoduché nastavenie firewallu, jednoduché obmedzenie rýchlosti, jednoduché monitorovanie. Režim zlyhania: dané spojenie je jediným bodom zlyhania; jeho saturácia (kopírovanie veľkého kontrolného bodu, stiahnutie 10 GB dátového súboru) má vplyv na každý uzol súčasne.
Distribuovaný uplink. Každý list má samostatný uplink do kampusovej siete, často pomalší 25 GbE nad 100 GbE fabric. Načítanie dátových sád a externá prevádzka zostávajú lokálne pre list – žiadne preťaženie vnútornej fabric. Spôsob zlyhania: každý list predstavuje bezpečnostnú hranicu, firewall je N-krát ťažší, monitorovanie je náročnejšie.
Pre základný prípad Kentino (tréningový klaster 4–16 uzlov) je správnou odpoveďou jeden bod uplinku. Vnútorná infraštruktúra je iba RDMA (RoCE alebo InfiniBand), vyladená pre nízku latenciu a bezstratové správanie. Uplink je čistý Ethernet, TCP, normálna QoS. Nie Umiestnite úložisko objektov datasetu na rovnakú bezstratovú štruktúru (fabric) ako GPU allreduce – chybne fungujúci klient S3 by nemal byť schopný spustiť spätný tlak PFC na trénovací prenos. Dve štruktúry: dátová rovina (bezstratová RDMA) a rovina správy/uplinku (stratový TCP). N08 pokrýva praktické nastavenie.
Kentinov úprimný pohľad
Väčšina zákazníkov Kentina si kupuje 1 až 4 uzly. V tomto rozsahu:
- 1 uzol. Žiadna otázka topológie. PCIe vo vnútri krabice (K07), jedna 25 GbE riadiaca sieťová karta vonku, hotovo.
- 2 uzly. Priamy kábel medzi dvoma sieťovými kartami RDMA. Žiadny prepínač. Žiadna topológia na výber.
- 3–4 uzly. Jeden 32-portový 100 GbE prepínač zvláda komunikáciu typu „every-to-ever“ s plnou bisekciou za celkovo 30 000 – 50 000 USD. Stále si nie je možné vybrať topológiu.
Konverzácia o topológii začína na 8 uzlov, keď sa počet portov jedného prepínača zníži a stane sa povinným v 16 uzlovPod touto hranicou je správna odpoveď „jeden dobrý prepínač, plné rozdelenie na dva porty, nech sa páči.“ Nad touto hranicou je správna odpoveď „dvojvrstvový prepínač typu leaf-spine, 100 alebo 200 GbE na uzol, plné rozdelenie na dva porty (1:1) a nikdy sa nedotýkajte tlačidla presahujúceho predplatné, pokiaľ vás k tomu niekto nenúti.“
Dragonfly+ je správnou odpoveďou na problémy s hyperskalátormi. Tesseract / hypercube je zaujímavý ako bezprepínacia možnosť pre kompaktné klastre (N05). Torus je voľbou viazanou na dodávateľa pre operátorov HPC s topologicky orientovanými pracovnými zaťaženiami. Pre všetkých ostatných v cenovej kategórii Kentino je predvolený pomer tučného stromu. Úplné rozpolenie, ak si to môžete dovoliť; 2:1, ak si to nemôžete dovoliť; nikdy 4:1 pre tréning AI.
Čo urobiť ďalej
Ak upravujete veľkosť prepínanej tkaniny pre skutočný klaster:
- Zapíšte si počet uzlov, počet grafických procesorov na uzol a rýchlosť linky na sieťovú kartu. Vynásobte. Vydeľte 2. To je vaše cieľové číslo bisekcie.
- Rozhodnite sa, či vaše úlohy pokrývajú celý klaster alebo sú umiestnené v jednom racku. Úlohy lokálne v racku tolerujú nadmerný počet prihlásení. Úlohy prekračujúce klaster nie.
-
beh
nccl-tests/all_reduce_perfna dočasnej konfigurácii fat-tree pred potvrdením vedenia kábla. Ak 8-uzlový systém allreduce už stráca 20 % teoretickej zbernice, máte iný problém ako topológiu. - Neoptimalizujte na najbližších 5 rokov. Kúpte si pre klaster, ktorý tento rok potrebujete s jasnou cestou expanzie. Topológia s listami a tŕňmi tučných stromov je najlacnejšia na postupný rast.
- Priraďte uplink k rýchlosti príjmu dátovej sady, nie k rýchlosti internej štruktúry. Väčšina klastrov potrebuje 25 – 100 GbE odchádzajúcich dát, nie 400.
- Vždy dve látky. Dátová rovina a rovina riadenia sú oddelené, a to aj na 4 uzloch.
Pokračovania v tejto skladbe idú hlbšie: N05 pokrýva topológie bez prepínačov (možnosti tesseractu a torusu, keď naozaj nechcete žiadny prepínač); N06 analyzuje, odkiaľ pochádza každá mikrosekunda latencie po spustení fabric; N07 pokrýva prácu smerovania a kontroly preťaženia, ktorá rozhoduje o tom, či vaša krásna topológia skutočne funguje; N08 je praktické nastavenie RDMA a návrh klastrového uplinku.
Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.