Rozširujúce karty GPU v zostavách serverov s umelou inteligenciou: Kedy ich potrebujete a čo sa pokazí

Rozširujúci modul GPU je kábel, doska alebo zostava, ktorá presúva slot PCIe z miesta, kde ho umiestňuje základná doska, na miesto, kde musí byť umiestnená grafická karta. V desktope s jednou kartou na rozširujúce moduly nemyslíte. V 4U racku so štyrmi RTX 5090 alebo v dvojsocketovom EPYC s ôsmimi kartami nemyslíte na nič iné. Rozširujúci modul je miesto, kde integrita signálu potichu zlyháva, kde sa prepojenie potichu preškolí na Gen3 a kde zostava, ktorá v benchmarkoch funguje dobre, začne v produkčnom prostredí strácať jednu grafickú kartu denne.

Toto je praktická referencia: čo sú to stúpačky, kedy ich potrebujete, štyri kategórie, prečo Gen5 všetko mení, ako diagnostikovať a čo špecifikovať.

Prečo vôbec existujú stúpačky

Základná doska umiestňuje sloty PCIe x16 približne 20 mm od seba. Dvojslotová grafická karta má hrúbku 40 – 70 mm. Aritmetika nefunguje. Keď chcete v šasi viac ako dve karty, alebo 3-slotové karty, alebo orientáciu prúdenia vzduchu v racku spredu dozadu, grafické karty je potrebné fyzicky premiestniť.

Tri praktické dôvody, prečo stavba potrebuje stúpačky:

Vhodnosť podvozku. V 4U rackovom šasi sú grafické karty umiestnené vodorovne, rovnobežne so základnou doskou, pozdĺž dráhy prúdenia vzduchu. Sloty PCIe základnej dosky sú na túto dráhu kolmé. Každá grafická karta v plochom rackovom šasi je na vysúvacej šasi.

Tepelná izolácia. Aj keď sloty fyzicky zapadajú, umiestnenie grafických kariet chrbtom k sebe znamená, že každá karta nasáva výfukové plyny z nasledujúcej karty. Krátka výstuha ich oddeľuje o 40 – 80 mm a poskytuje každej karte vlastnú rovinu nasávania. Pri kartách s výkonom 350 W je to rozdiel medzi 72 °C a 86 °C pri trvalom zaťažení.

Rozstup viacerých GPU. 8-GPU zostava v šasi 4U/5U nemôže vôbec využívať sloty základnej dosky. Základná doska má štyri alebo päť slotov x16; šasi musí mať osem slotov za sebou pozdĺž dráhy prúdenia vzduchu. Systém rozširujúcich rozhraní tvorí kompletné mechanické rozhranie medzi nimi dvoma.

Štyri kategórie, ktoré skutočne vidíte

Pevná doska plošných spojov (1U/2U)
10–60 mm. Gen4/Gen5 OK. Lacné, z výroby, žiadne prekvapenia. Ak je váš podvozok vybavený jedným, použite ho.
Stuha / Flex
150–300 mm. Gen3 jemný, Gen4 väčšinou OK krátky. Gen5 okrajový aj pri 100 mm. Bežný problém pri domácich prácach.
Aktívny / Retimer
Do 600 mm. Gen4/Gen5 s inline časovačom. 150 – 300 € za GPU. Štandard pre dlhé série Gen5.
MCIO / SlimSAS
300–500 mm pri Gen5 x16. Navrhnuté pre 32 GT/s. Natívne pre Gen5. Jediné správne riešenie pre 8-GPU Gen5.

Kategórie rozširujúcich kariet zoradené podľa dĺžky kábla a vhodnosti pre Gen5. MCIO je jediná karta určená pre produkčné zostavy s 8 GPU Gen5.

1. Pevné rozširujúce dosky plošných spojov (adaptéry 1U / 2U)

Plochá doska plošných spojov, ktorá sa zasúva do slotu na základnej doske a má sloty PCIe v pravom uhle alebo posunuté o 30 – 60 mm. Štandard v hustých serveroch 1U/2U. Krátka, pasívna, vyrobená z výroby, špecifická pre šasi. Ak je vaša šasi vybavené jednou, použite ju.

2. Stuhy a flexibilné stúpačky

Klasická časť pre domácich majstrov. Plochý flexibilný kábel, dlhý 150 – 300 mm, na jednom konci slot PCIe, na druhom konektor PCIe edge. Pod 100 €. Všade v zostavách na ťažbu kryptomien, stále bežné v lacných zostavách umelej inteligencie.

Páskové káble fungujú na Gen3 bez problémov. Na Gen4 fungujú väčšinou, ak sú krátke (pod 200 mm) a prostredie EMI je čisté. Na Gen5 sú návykové aj pri 100 mm – konštrukcia kábla nebola nikdy navrhnutá na 32 GT/s.

Videli sme, ako sa páskové riadiace jednotky Gen4 na skúšobnej lavici dobre trénujú na x16 a potom klesajú na Gen3 pri záťaži, keď sa šasi zahreje. Videli sme, ako tá istá riadiaca jednotka fungovala na EPYC Genoa a nedokázala sa trénovať nad Gen3 na EPYC Turin, pretože PHY Gen5 na Turine má užšie časovacie rezervy.

Verdikt: v poriadku pre Gen3. Prijateľné pre krátke série Gen4, ak to dodávateľ špecifikuje. Neprijateľné pre výrobu Gen5.

3. Aktívne / retimerové stúpačky

Retimer je čip zabudovaný na riser vodiči, ktorý obnovuje hodinový signál a regeneruje čistý signál. Z hľadiska integrity signálu efektívne skracuje dĺžku kábla na polovicu – 400 – 600 mm s retimerom v strede cesty, kde pasívny riser zomrie pri 200 mm.

Pridáva 150 – 300 € za GPU a latenciu v jednej nanosekunde (irelevantné pre výpočty). Štandardná odpoveď na otázku „dlhý kábel, Gen4/Gen5 musí fungovať“ – väčšina továrenských súprav Gen5 ich používa.

4. Káblové pripojenia MCIO a SlimSAS

MCIO (Mini Cool Edge IO) vyhral boj o kabeláž serverov Gen5. SlimSAS (SFF-8654) je starší bratranec, bežný v Gen4. Oba nahrádzajú okrajový konektor PCIe káblovým konektorom na oboch koncoch – základná doska odhaľuje porty MCIO, rozširujúca doska plošných spojov odhaľuje porty MCIO a káble medzi nimi.

Kábel MCIO je diferenciálny párový kábel navrhnutý pre 32 GT/s. 300–500 mm pri Gen5 x16 je štandard. Impedančne riadený, tienený správne, konektory sa pevne zaisťujú. Konektor PCIe edge – 25 rokov starý štandard – je slabým bodom každého ribbon riseru; MCIO ho odstraňuje.

Základná doska — 4× MCIO x16 porty
4× káble MCIO (300 – 400 mm)
Káble MCIO
PCIe prepínač / rozdvojená doska
8× káble MCIO (200 – 300 mm)
Káble MCIO
Rozširujúce karty GPU × 8 → 8× Plochá montáž grafických kariet
Každý riser predstavuje PCIe edge konektor na GPU

Typický reťazec kabeláže MCIO pre 8 GPU Gen5: základná doska → prepínač/rozdvojená doska → rozširujúce karty GPU → GPU.

Verdikt: MCIO na Gen5, bodka. Ak predajca predáva Gen5 s 8 GPU bez MCIO, držte sa ho.

Integrita signálu, Gen4 vs Gen5

Parameter Gen3 (8 GT/s) Gen4 (16 GT/s) Gen5 (32 GT/s)
Bitová perióda ~125 ps ~62 ps ~31 ps
Maximálne praktický pasívny kábel ~ 400 mm ~ 200 mm ~ 100 mm
Max s časovačom ~600+ mm ~ 500 mm ~ 400 mm
Tolerancia okrajového konektora odpúšťajúci tesný neodpúšťajúci
Okraj oka pri pasívnom 250 mm dokorán zúženie zatvorené

V Gen3 môžete s plochým káblom robiť takmer čokoľvek. V Gen5 nie a poruchové režimy nie sú vždy hlučné.

Najbežnejší vzorec: linka sa trénuje na nižšej hodnote, ktorú slot a zariadenie hlásia po vyjednávaní LTSSM (Link Training and Status State Machine). Ak je kvalita signálu marginálna, pretrénuje sa – potichu, zvyčajne počas prvého veľkého zaťaženia GPU – a ustáli sa na Gen4 alebo Gen3. Systém pokračuje v prevádzke. Šírka pásma PCIe je polovičná. Benchmarky vyzerajú nesprávne a nikto nevie prečo.

Bežné režimy zlyhania

Zhruba v poradí, ako často sa presadzujú pri rackových zostavách so 4 alebo 8 grafickými kartami:

Zníženie výkonu na Gen3 pri zaťažení. Karta sa spúšťa na Gen4 x16; šasi sa zahrieva, odpor kontaktov konektora sa zvyšuje, okraj oka sa zatvára, linka sa preškoľuje a ustáli sa na Gen3. Testy šírky pásma ukazujú ~12 GB/s, kde sa očakáva 24 GB/s. Príčina: marginálny pasívny riser, zvyčajne dlhý pásik.

Občasné odpojenie. GPU zmizne z nvidia-smi uprostred práce, zvyčajne s hláseniami AER. Dosadnutie konektora vplyvom tepelných cyklov, niekedy problém s napájaním, niekedy okrajové otvorenie spájkovaného spoja vplyvom tepla.

Šírka sa zníži z x16 na x8 alebo x4. Jeden alebo dva jazdné pruhy sú príliš hlučné na prejazd, objaví sa spojenie s preživšími. Viditeľné v lspci.

Zlyhanie vlaku zavádzania. Karta sa jednoducho nezobrazuje. Káblové uloženie alebo mŕtvy stúpač.

Opraviteľné chyby AER pri zaplavení dmesg. Hardvér opravuje chyby za pochodu; jeden krok od zlyhania. Varovný signál – opravte to skôr, ako sa to zhorší.

Porucha súvisiaca s napájaním. Niektoré rozširujúce káble napájajú 75 W zo slotu cez kábel. Tenké vodiče znamenajú, že pri trvalom zaťažení grafickej karty dochádza k krátkodobému výpadku napätia, poklesom napätia a výpadkom linky. Zriedkavé pri továrenských rozširujúcich kábloch, bežné pri lacných plochých kábloch.

Ako diagnostikovať

Tri štandardné nástroje pre Linux: nvidia-smi, lspci, dmesg.

Skutočná šírka a rýchlosť odkazu:

$ nvidia-smi --query-gpu=index,pcie.link.gen.current,pcie.link.width.current --format=csv
0, 4, 16
1, 4, 16
2, 3, 16     ← train-down
3, 4, 16

GPU 2 je na Gen3, nie Gen4 – jej rozširujúca karta si vyžaduje preskúmanie.

Z pohľadu PCIe:

$ sudo lspci -vvv -s <bus:dev.fn> | grep -E "LnkCap|LnkSta"
    LnkCap: Speed 32GT/s, Width x16
    LnkSta: Speed 16GT/s (downgraded), Width x16

(downgraded) je funkcia tell — odkaz bežiaci pod ňou.

Kruh jadra pre chyby AER:

$ sudo dmesg -T | grep -iE "aer|pcie"
pcieport 0000:60:01.0: AER: Corrected error received: 0000:61:00.0

Opravené chyby ešte nie sú fatálne, ale naznačujú marginálne prepojenie. Spustite trvalé zaťaženie a sledujte rýchlosť; ak stúpa, stúpačka zlyháva.

Ak chcete izolovať kartu od rozširujúcej karty, vymeňte podozrivú grafickú kartu za dobre fungujúci slot. Príznak sa presúva s kartou → karta. Zostáva pri slote → rozširujúcej karte.

Konkrétne príklady z reálnych stavieb

4 grafické karty: 4× RTX 5090, EPYC Genoa, 4U šasi

Základná doska odhaľuje 4× Gen5 x16. GPU sú namontované plocho v kolíske 220 mm od slotu. Súprava od výrobcu: Káble MCIO Gen5 k malým rozširujúcim doskám plošných spojov, ktoré reprezentujú konektor PCIe edge na GPU.

Výsledok: 4× Gen5 x16, nulové AER počas 72-hodinového behu Qwen2.5-VL 72B. Šírka pásma PCIe na GPU 47–49 GB/s (teoretická Gen5 x16 ≈ 63 GB/s; reálna ≈ 50 GB/s po započítaní réžie protokolu). Čisté, pretože sme použili súpravu od dodávateľa podľa špecifikácie.

8 grafických kariet: 8× RTX Pro 6000 Blackwell, EPYC Turin Dual, šasi 4U

Dva CPU, každý so 4× Gen5 x16 koreňovými komplexmi smerovanými cez MCIO do dosky plošných spojov v strede šasi. Priame rozdvojenie – každá GPU dostáva x16 z CPU. Kábel MCIO na GPU ≈ 280 mm.

Toto je na hranici čistého MCIO na Gen5. Dva z ôsmich káblov v súprave od dodávateľa majú zabudované časovačov; ostatných šesť je pasívnych. Dva najďalej od CPU potrebujú rezervu, šesť bližšie nie. Dodávateľ to pred dodaním charakterizoval na tepelne zaťaženom zariadení.

Výsledok: 8× Gen5 x16 stabilný. Výkon zo zásuvky 4.1 kW pri trvalom zaťažení. Žiadne preškolenia počas 48 hodín.

Rovnaká konštrukcia, svojpomocné stúpačky

Rovnaké šasi a grafické karty, ale rozširujúce pásky tretej strany s hodnotením „Gen5“ od generického dodávateľa:

  • Dve z ôsmich GPU boli trénované na Gen4 x16 namiesto Gen5.
  • Jedna grafická karta občas klesala pri trvalom zaťažení.
  • ~15% zníženie priepustnosti v porovnaní s továrenskou zostavou.

Úspora nákladov: ~600 €. Náklady na ladenie: tri inžinierske dni. Zníženie priepustnosti: trvalé. Nerobte to.

Úvahy o napájaní duálneho zdroja

Rack so 4 grafickými procesormi odoberá pri zaťažení 1.8 – 2.4 kW; rack s 8 grafickými procesormi odoberá 3.5 – 4.5 kW. Väčšina rackových šasi tejto úrovne obsahuje 2× 2 kW ATX zdroje.

Duálny zdroj v šasi K-AI je rozdelený, nie redundancia N+1. Každý zdroj napája definovanú časť systému – typicky zdroj 1 napája štyri grafické karty a základnú dosku, zdroj 2 napája ďalšie štyri grafické karty (alebo štyri grafické karty plus rám disku). Ak jeden zdroj zlyhá, stratíte tú časť, ktorú napájal. Nič medzi tým. Žiadne zdieľanie liniek, žiadne záložné prepnutie.

Toto je dôležité pre rozširujúce karty: zdroj 75 W na strane slotu pre niektoré rozširujúce karty pochádza z toho zdroja, ktorý napája danú skupinu. Miešanie rozširujúcich kariet medzi skupinami zdrojov spôsobom, ktorý výrobca nezamýšľal, spôsobuje problémy so zemnou slučkou a šumom na linke PCIe. Ďalší dôvod na použitie továrenskej súpravy. Pozri W04 pre kompletný obrázok o veľkosti zdroja.

Prečo sú továrensky testované súpravy stúpačiek lepšie ako svojpomocná výroba

Dodávateľ šasi, ktorý dodáva 4- alebo 8-GPU AI rack, už vyrobil desiatky až stovky takýchto zostáv. Rozširujúca sada bola tepelne cyklovaná, testovaná na linky pri najhorších okolitých podmienkach, validovaná voči špecifickému PHY základnej dosky a zvyčajne raz revidovaná, keď prvá várka dorazila do rohovej skrinky. Samolepiaca páska od generického dodávateľa bola, ak vôbec, testovaná niekým pomocou osciloskopu pri izbovej teplote na jednej referenčnej doske.

Rozdiel v cene: niekoľko stoviek eur v rámci celej zostavy. Rozdiel v spoľahlivosti: obrovský. Každá zostava K-AI používa riser kity od dodávateľa. Túto alternatívu sme na žiadosť zákazníka raz vyskúšali a aj tak nás stála ladiace dni, ktoré si zákazník zaplatil. Záruka tiež záleží – na zlyhanie grafickej karty na neschválenom riser kite sa nevzťahuje záruka.

MCIO je cestou vpred v Gen5

Jednoduché ponaučenie: v Gen5 je slabým článkom konektor PCIe edge a MCIO ho nahrádza. Každý rack Gen5 s 8 GPU, ktorý sa oplatí špecifikovať, dnes používa MCIO od začiatku do konca. Zostavy Gen4 môžu stále používať SlimSAS alebo krátky MCIO; ploché káble Gen3 sú vhodné iba pre hardvér Gen3.

Pri hodnotení zostavy dodávateľa s 8 GPU Gen5 si položte tri otázky:

  1. Ako vyzerá kabeláž medzi PCIe na základnej doske a grafickou kartou? (Musím spomenúť MCIO.)
  2. Sú nejaké káble vybavené časovačom – ktoré a prečo? (Predajca, ktorý pozná ich konštrukciu, poskytne konkrétnu odpoveď.)
  3. Aký je nameraný stav pripojenia a miera AER na plne osadenom, tepelne zaťaženom šasi? (8× Gen5 x16, nulová alebo takmer nulová AER za viac ako 24 hodín.)

Nejasné odpovede znamenajú, že dodávateľ prácu nevykonal.

Čo urobiť ďalej

Ak hľadáte alebo kupujete zostavu servera s umelou inteligenciou:

  1. Pre akúkoľvek zostavu racku so 4 alebo 8 grafickými kartami použite sadu rozširujúcich modulov od výrobcu šasi, ktorú stešili z výroby. Nekupujte generické stúpačky od tretích strán.
  2. Pre Gen5 je potrebná kabeláž MCIO. Páskový modul SlimSAS alebo PCIe-edge je prijateľný iba v Gen4.
  3. Po uvedení do prevádzky spustite tri vyššie uvedené diagnostické príkazy pri nečinnosti a znova po 30 minútach trvalého zaťaženia. Skontrolujte, či každá grafická karta má očakávanú generáciu a šírku bez chýb AER. Uložte výstup ako základnú líniu.
  4. Ak sa chyby typu „train-down“ alebo „AER“ objavia v priebehu prvých 48 hodín, okamžite ich zvýšte. Okrajovo poškodený stúpajúci prvok sa vekom nezlepší. Predajcovia, ktorí majú tovar na sklade, vymenia podozrivý stúpajúci prvok v rámci záručného obdobia.
  5. V prípade šasi s dvoma zdrojmi pochopte rozdelenie. Zistite, ktorá skupina GPU sa deaktivuje, ak zlyhá zdroj napájania. Naplánujte si plynulú degradáciu – vLLM a väčšina distribuovaných tréningových rámcov sa dokážu zotaviť z čiastočnej straty GPU, ale iba ak ste si napísali cestu obnovy.

Nasledujúce články sa venujú topológii a bifurkácii PCIe (W02), dimenzovanie zdroja (W04) a termálne oblečenie (W05). Podpery sú jednou z troch alebo štyroch vecí, ktoré odlišujú zostavu s porovnateľnou kvalitou od zostavy s nepretržitou prevádzkou. Urobte to správne a potom na to zabudnite.


Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.