Dimenzovanie zdroja PSU a konfigurácie s dvoma zdrojmi PSU pre servery s umelou inteligenciou a viacerými grafickými procesormi

Napájanie je jediná vec, ktorú väčšina multi-GPU zostáv robí chybu hneď na začiatku. Je to tiež poruchový režim, ktorého oprava je neskôr najdrahšia: ak je zdroj poddimenzovaný, systém sa pri záťaži náhodne reštartuje, ak je predimenzovaný, vyhodili ste 400 eur na jednotku s 30% účinnosťou. Otázka duálneho zdroja sa ešte zhoršuje, pretože väčšina toho, čo sa píše online o „redundancii“, je nesprávna v kontexte 4U pracovnej stanice alebo serverového šasi so spotrebiteľskými GPU.

Tento článok obsahuje matematiku, realitu z hľadiska tvaru a úprimný návrh pre zostavenie so 4 a 8 grafickými kartami na hardvéri, ktorý skutočne dodávame: RTX 5090, 4090, RTX Pro 6000 Blackwell (Workstation a Max-Q), L40 a L4 na hostiteľských platformách EPYC.

Výpočet celkového výkonu

Číslo, ktoré ťa zaujíma, je trvalé ťahanie steny pri realistickom zaťažení, plus dostatočný priestor pre výdrž, aby prechodné špičky nespustili ochranu zdroja proti nadprúdu. Vzorec je jednoduchý:

P_total  =  (GPU_TDP × N_gpu)  +  CPU_TDP  +  drives  +  fans  +  motherboard
P_psu    =  P_total / efficiency_at_load  ×  1.30  (30% headroom)

30 % rezerva nie je náhodná. Zahŕňa tri veci naraz: krátkodobé špičky GPU, pokles účinnosti pri prekročení ~70 % menovitého výkonu zdroja a skutočnosť, že TDP GPU je marketingové číslo, ktoré skutočné pracovné zaťaženie občas prekročí.

Referenčné TDP, ktoré používame na dimenzovanie:

Zložka Nominálny TDP Realistický vrchol
RTX 5090 (FE / partnerská doska) 575 W 600 – 650 W prechodové
RTX 4090 450 W 500 – 550 W prechodové
Pracovná stanica RTX Pro 6000 Blackwell 600 W 600 W (pevný kondenzátor)
RTX Pro 6000 Blackwell Max-Q 300 W 300 W (pevný kondenzátor)
L40 300 W 300 W (pevný kondenzátor)
L4 72 W 72 W (pevný kondenzátor)
EPYC 9354 / 9374F (hostiteľský procesor) 280 – 320 W Zvýšenie výkonu o 350 W
EPYC 9554 / 9654 (vysokojadrový) 360 – 400 W W ~ 400
NVMe SSD (na disk, trvalo) 8 – 12 W 15 W impulz
120 mm priemyselný ventilátor (na ventilátor) 5 – 10 W 10 W
Základná doska + DIMM moduly (8× DDR5) 80 – 120 W 150 W

Vzor: karty pre pracovné stanice (Pro 6000, L40, L4) si pevne držia menovitú hodnotu TDP, pretože ich firmvérové ​​obmedzenia spotreby energie sú navrhnuté pre trvalé zaťaženie dátového centra. Spotrebiteľské karty (5090, 4090) prudko stúpajú. 5090 bude počas zmeny pracovného zaťaženia odoberať 600 W alebo viac po dobu desiatok milisekúnd. Vynásobte to štyrmi kartami, ktoré navzájom vykresľujú prechodové javy mimo fázy, a váš zdroj zaznamená krátkodobé výkyvy vysoko nad priemerom v ustálenom stave.

Preto je „matematika hovorí 1500 W, kúpim si 1500 W zdroj“ najbežnejším spôsobom, ako sa zostava so 4× 5090 reštartuje pod záťažou.

Prechodné špičky – prečo je priestor pre hlavu skutočný

Prechodové správanie spotrebiteľských GPU triedy Blackwell je dobre zdokumentované. 5090 pri voľnobehu s výkonom ~30 W môže skočiť na 600 W v priebehu jednej milisekundy, keď sa jadro CUDA spustí proti prázdnemu frontu. Vlastné VRM karty časť z toho vyhladzuje, ale nezanedbateľná časť sa dostane späť na koľajnice zdroja. 4090 robí to isté pri špičkách ~500 W.

Dva dôsledky:

  1. Ochrana zdroja proti nadprúdu (OCP) je bodom poruchy, nie priemerná kapacita koľajnice. 1500 W zdroj s agresívnym OCP nastaveným na ~130 % menovitého výkonu sa vypne, keď štyri 5090 náhodne vykazujú prudký nárast napätia. Reštart je tichý – žiadny záznam udalostí, žiadne varovanie, systém sa jednoducho znova spustí. Diagnostika tohto problému bez prístrojového vybavenia trvá dni.
  2. Doba odozvy zdroja je dôležitejšia ako maximálne zaťaženie. Zdroje ATX serverovej triedy a špičkové zdroje majú kapacitu, ktorá dokáže absorbovať prechodové javy v priebehu milisekundy bez toho, aby preťažili vedenia. Lacné alebo staršie jednotky to nedokážu. Preto je rozdiel v cene medzi 2 kW priemyselným zdrojom a 2 kW spotrebiteľským „herným“ zdrojom reálny – nie je to len konštrukcia označenia „emblém“.

Praktické pravidlo, ktoré používame: cieľová hodnota 70 % menovitého výkonu zdroja ako ustálená záťaž, nechajte 30 % na prechodové javy a krivku účinnosti. Zostava so 4 procesormi 5090 s trvalým výkonom ~2.3 kW vyžaduje zdroj s výkonom 3 kW, čo v praxi znamená dva 1500 W zdroje ATX rozdelené podľa záťaže.

Viac ako 80 hodnotení – čo vlastne znamenajú

Úrovne certifikácie 80+ opisujú účinnosť pri zaťažení 20 %, 50 % a 100 %, pri vstupnom napätí 115 V alebo 230 V. Relevantné čísla pre server s viacerými grafickými procesormi a umelou inteligenciou (ktorý pracuje väčšinu času s takmer 50 % zaťažením) pri európskom napájaní 230 V:

Stupeň 20% zaťaženie 50% zaťaženie 100% zaťaženie
80+ bronz 81% 85% 81%
80+ zlatých 88% 92% 88%
80+ platina 90% 94% 91%
80+ titán 94% 96% 94%

Pri 50 % zaťažení je rozdiel medzi verziami Gold a Titanium štyri percentuálne body. V systéme s výkonom 2 kW bežiacom 24 hodín denne, 7 dní v týždni, štyri body predstavujú zhruba 80 W nepretržite, čiže ~700 kWh ročne. Pri cene 0.20 €/kWh je to 140 €/rok na zdroj. Titanium sa zaplatí do dvoch rokov na serveri, ktorý skutočne pracuje v pracovnom cykle, na ktorý je určený; Gold je správna odpoveď, ak je systém polovicu času nečinný.

Na stránkach produktov Kentino netvrdíme, že máme certifikát 80+ Platinum alebo Titanium, pokiaľ nemáme v evidencii túto certifikáciu. Prevažná väčšina 2 kW ATX zdrojov, ktoré dodávame, má certifikát Gold. Zákazníci, ktorí potrebujú Platinum alebo Titanium pre nepretržitú prevádzku v kolonádnom prostredí, si ich môžu vyžiadať ako možnosť zostavenia – my ich zabezpečíme a zabezpečíme cenovú ponuku.

Zdroje ATX vs. serverové zdroje s možnosťou výmeny za chodu

Otázka tvarového faktora sa jasne rozdeľuje:

ATX (jeden zdroj, do ~2 kW)

  • Štandardné šasi pracovných staníc s rozmerom 4U je kompatibilné s jedným alebo dvoma zdrojmi ATX.
  • Maximálny praktický výkon na jednotku ATX je ~2 kW (limit jednofázového obvodu 240 V pri 16 A je celkovo 3.6 kW).
  • Káble sú vymeniteľné používateľom, modulárne a rozloženie pinov konektorov je štandardné.
  • Žiadna výmena za chodu. Porucha zdroja znamená opätovnú montáž po vypnutí.
  • Cena: 200 – 500 € za serióznu 2 kW ATX jednotku (Corsair AX, Seasonic PRIME, EVGA SuperNOVA G+, Super Flower Leadex).

CRPS (Common Redundant Power Supply, serverový formát)

  • Štandardný modul zdroja napájania pre servery, ~73.5 mm × 185 mm × 40 mm.
  • Používa sa v serverových šasiach Supermicro, Tyan, Gigabyte a Bone64c.
  • Skutočná výmena za chodu pri spárovaní s redundantnou základnou doskou (1+1 alebo 2+2).
  • Typické výkony: 1200 W, 1600 W, 2000 W, 2400 W, 3000 W na modul.
  • Cena: 350 – 700 € za modul plus zadná doska.

Poctivý rám pre stavby Kentina:

  • 4-GPU servery K-AI sa dodávajú v 4U šasi pre pracovné stanice/servery s duálnymi ATX zdrojmi – konkrétne duálnymi 1500 W alebo duálnymi 2000 W v závislosti od kombinácie GPU.
  • Servery K-AI s 8 GPU sa dodávajú v serverových šasi s dvoma alebo štyrmi modulmi CRPS s výkonom 2 000 – 2 400 W. Ide o konfigurácie, v ktorých sa skutočná redundancia 1+1 stáva zmysluplnou možnosťou, pretože ju podporuje zadná doska šasi.

Čestnosť pri duálnom zdroji – rozdelené dodanie, nie N+1

Toto je najviac nesprávne prezentovaná špecifikácia na trhu s viacerými grafickými procesormi a túto chybu nezopakujeme.

V šasi pracovnej stanice 4U s dvoma zdrojmi ATX:

Tieto dva zdroje nie sú redundantné. Napájajú rôzne záťaže. Typické zapojenie je:

Zdroj A
  • Základná doska (24-pinový ATX)
  • CPU (EPS 8-pinový)
  • Pohony + ventilátory
  • GPU 1 (12V-2x6)
  • GPU 2 (12V-2x6)
rozdeliť
Zdroj B
  • GPU 3 (12V-2x6)
  • GPU 4 (12V-2x6)
  • (niekedy: klietka disku)
Zlyhanie zdroja PSU B → GPU 3 a 4 sú offline
Zlyhanie zdroja PSU A → systém je mŕtvy

Dvojitý ATX zdroj s rozdeleným napájaním. Žiadne zdieľanie lišty, žiadne záložné prepnutie. Dve samostatné záťažové skupiny.

V tejto topológii nedochádza k „automatickému prepnutiu pri zlyhaní“ medzi dvoma zdrojmi ATX. Zdroje ATX nezdieľajú lišty. 12 V výstup zdroja A nie je elektricky prepojený s 12 V výstupom zdroja B. Ak by ste ich prepojili, vytvorili by ste prúdovú slučku a poškodili by ste jednu alebo obe jednotky.

Dôvod, prečo používame duálny zdroj v zostavách so 4 grafickými procesormi a väčších zostavách, je... rozdelené napájanieJedna 2 kW ATX jednotka pri 70 % zaťažení je na papieri v poriadku, ale samotný zväzok káblov – štyri GPU PCIe obvody plus základná doska plus EPS – je fyzicky nepraktické viesť z jedného zdroja. Rozdelenie na dve 1500 W alebo 2000 W jednotky znižuje hmotnosť káblov na strane na polovicu, tepelné zaťaženie na jednotku na polovicu a poskytuje elegantnú záložnú možnosť s 2 GPU, ak zdroj zlyhá uprostred práce, namiesto tvrdého zlyhania systému.

CRPS v serverovom šasi je iný. Základná doska 2+2 CRPS so štyrmi 2 kW modulmi a 1+1 redundantnými pármi je skutočne vymeniteľná za chodu a jeden modul môže zlyhať bez toho, aby sa systém vypol. Toto je konfigurácia servera s 8 GPU a na stránke produktu to explicitne uvádzame, keď sa zostava dodáva s touto základnou doskou. Je to tiež konfigurácia, ktorá odôvodňuje tvrdenie o „redundantnom zdroji“. Toto tvrdenie neuvádzame pri zostavách ATX so 4 GPU, pretože by to bolo nesprávne.

Vyváženie koľajníc a limity prúdu na koľajnicu

Moderné špičkové zdroje ATX sú štandardne napájané jednou 12 V lištou, čo veci zjednodušuje – celý 12 V výstup je jeden veľký zdroj a jediným obmedzením je celkový výkon zdroja. Jednoduchá jednotka s výkonom 2000 W napájaná z 230 V dokáže dodať ~166 A pri 12 V, čo je viac než dosť pre akúkoľvek jednu grafickú kartu.

Niektoré staršie alebo priemyselné zdroje sú viacramenné (12V1, 12V2, 12V3, 12V4), pričom každý z nich má typicky 20 – 40 A OCP na lištu. Toto je dôležité v dvoch prípadoch:

  1. Zariadenie 5090 s jeho zástrčkou 12V-2x6 (nástupca 12VHPWR) pripojíte k jednej 12 V koľajnici. Prepínač 5090 s výkonom 600 W odoberá pri 12 V prechodový prúd 50 A. Viackolejnicový OCP s prúdom 40 A sa vypne.
  2. Dve grafické karty pripájate k rovnakej skupine portov s viacerými koľajnicami. Rovnaký problém, dvojnásobne.

Praktická odpoveď: pre zostavy s viacerými grafickými kartami použite 12 V zdroje s jednou lištou. Viaceré lišty sú pozostatkom z éry, keď bolo 12V OCP bezpečnostnou prvkom v herných systémoch s jednou grafickou kartou. V šasi so 4× 5090 je to prakticky nepoužiteľné.

Betónová zostava s 4 GPU 5090

Čísla z reprezentatívnej zostavy K-AI 96 Turin so 4× RTX 5090:

Component                       Sustained        Peak
---------                       ---------        ----
4× RTX 5090                     4 × 500 W = 2000 W   4 × 600 W = 2400 W (transient)
EPYC 9354 (32-core, 280 W)      ~ 250 W              350 W
Motherboard + 8× 64 GB DDR5     ~ 100 W              150 W
2× NVMe SSD                     ~ 20 W               30 W
4× 120 mm industrial fans       ~ 30 W               40 W
                                --------             --------
Total system                    ~ 2.4 kW             ~ 3.0 kW transient

Dimenzovanie zdroja: 3.0 kW prechodový výkon / 0.92 (Gold pri 50 % zaťažení) = rozpočet zdroja 3.26 kW. Zaokrúhlite nahor na 2× 1500 W ATX alebo 2× 2000 W ATX, jednokoľajnicový, Gold-or-better, rozdelený ako:

  • PSU A (2000 W): základná doska, procesor, disky, ventilátory, grafická karta 1, grafická karta 2
  • Zdroj B (1500 W): GPU 3, GPU 4

Variant s výkonom 2× 2000 W ponúkame zákazníkom, ktorí chcú neskôr upgradovať na grafické karty RTX Pro 6000 Workstation (600 W na každú, prísnejší prechodový limit, ale trvalý strop 2.4 kW v oboch prípadoch).

Betónová zostava s 8 GPU 5090

Čísla pre K-AI 256 Turin Dual s 8× RTX 5090:

Component                       Sustained        Peak
---------                       ---------        ----
8× RTX 5090                     8 × 500 W = 4000 W   8 × 600 W = 4800 W (transient)
2× EPYC 9554 (64-core, 360 W)   ~ 650 W              800 W
Motherboard + 16× 64 GB DDR5    ~ 180 W              250 W
4× NVMe SSD                     ~ 40 W               60 W
8× industrial server fans       ~ 80 W               120 W
                                --------             --------
Total system                    ~ 5.0 kW             ~ 6.0 kW transient

Dimenzovanie zdroja: 6.0 kW prechodový výkon / 0.94 (Platinum CRPS pri 50 % zaťažení) = rozpočet zdroja 6.4 kW. Štandardná konfigurácia je duálne 2000 W CRPS moduly minimálne, častejšie 2+2 CRPS s výkonom 2000–2400 W každý s redundantnou základnou doskou.

Toto je konfigurácia, kde je opodstatnené skutočné nárokovanie redundancie 1+1. Rozdiel v kapitálových výdavkoch pre neredundantný server s dvoma zdrojmi napájania je približne 800 – 1 200 EUR na zostavenie.

Tu záleží na vstupe 240 V. Systém 8-GPU 5090 na jednofázovom okruhu 230 V s prúdom 16 A dosahuje 73 % trvalého odberu ističa, čo je horná hranica povoleného trvalého odberu vo väčšine jurisdikcií. Pre akékoľvek nasadenie 8-GPU odporúčame okruh s prúdom 32 A alebo trojfázovú rackovú PDU s 230 V na vetvu.

Dimenzovanie UPS

Ak na UPS pripájate 4-GPU alebo 8-GPU server s umelou inteligenciou – čo by ste mali urobiť, minimálne kvôli plynulému vypnutiu – matematika je nasledovná:

  • Zostava so 4 grafickými procesormi: trvalý výkon 2.4 kW. Online UPS s výkonom 3 kVA / 2.4 kW vám poskytuje plné pokrytie, ale minimálny čas prevádzky (~5 minút pri plnom zaťažení). Pre plynulé vypnutie to stačí.
  • Zostava s 8 grafickými procesormi: trvalý výkon 5 kW. Minimum je online UPS s výkonom 6 kVA. Pre skutočných 10 minút prevádzky pri záťaži potrebujete 10 kVA alebo paralelný pár.

UPS, ktorý nie je dostatočne dimenzovaný na prechodnú špičku, prejde do režimu bypassu alebo sa vypne v momente, keď dochádza k prudkému nárastu výkonu grafických kariet (GPU). Menovitý výkon UPS musí pokrývať prechodnú špičku, nie trvalý priemer. Online dvojitá konverzia je správna topológia pre výpočty s umelou inteligenciou. Line-interaktívne jednotky majú prenosový čas 4 – 10 ms, ktorý občas spôsobí zlyhanie inferenčných úloh pri prechode. Čistý sínusový výstup, nie modifikovaný sínus – moderné zdroje ATX a CRPS netolerujú modifikovaný sínusový výstup pri vysokom zaťažení.

Súhrnná tabuľka – Odporúčania pre zdroje podľa triedy zostavy

vybudovať trvalá prechodný Konfigurácia zdroja Žaloba o prepustenie
1× pracovná stanica 4090/5090 W ~ 700 900 W 1× 1200 W ATX Gold, single rail nikto
2 × 4090 ~1.2 kW 1.5 kW 1× 1600 W ATX Gold, single rail nikto
4 × 4090 ~2.0 kW 2.6 kW 2× 1500 W ATX Gold, delená dodávka Žiadne (rozdelené)
4 × 5090 ~2.4 kW 3.0 kW 2× 1500–2000 W ATX Gold, delená dodávka Žiadne (rozdelené)
4× RTX Pro 6000 (pracovná verzia) ~2.6 kW 2.8 kW 2× 2000 W ATX Gold/Platin Žiadne (rozdelené)
8 × 5090 ~5.0 kW 6.0 kW 2× 2000 W CRPS alebo 2+2 CRPS pri 2000 W 1+1 (iba CRPS)
8× RTX Pro 6000 (pracovná verzia) ~5.5 kW 5.7 kW 2+2 CRPS pri 2400 W 1+1 (iba CRPS)
8× L40 / 8× L4 (inferencia) 2.6/0.7 kW rovnaký 2× 1500 W ATX alebo 1+1 CRPS pri 1600 W Voliteľný

Čísla L40 a L4 sú dôvodom, prečo sú tieto karty stále zaujímavé: inferenčný server 8× L4 beží na jednom 1200 W ATX zdroji s dostatkom miesta a zmestí sa do akejkoľvek kancelárie. Nie každá pracovná záťaž potrebuje Blackwell.

Čo urobiť ďalej

Ak určujete veľkosť zostavy, otázky, na ktoré je potrebné odpovedať pred špecifikáciou zdroja:

  1. Aký je presný model GPU a koľko ich je? Prechodový vrchol na kartu × N, nie nominálna TDP × N.
  2. Je toto šasi pre pracovnú stanicu 4U alebo pre server so základnou doskou CRPS? Toto určuje, či je duálny zdroj s deleným napájaním alebo skutočnou redundanciou 1+1.
  3. Aký je tvoj obvod? 230 V 16 A je v poriadku pre 4-GPU. 8-GPU vyžaduje 32 A alebo trojfázové napájanie. Domácnosti v USA s napätím 110/120 V nemôžu dodať 8-GPU 5090 na jeden okruh a bodka.
  4. Aký je pracovný cyklus? Nepretržitá nepretržitá inferencia ospravedlňuje použitie platinových alebo titánových zdrojov. Prerušované školenie alebo vývoj môže prebiehať na zlatej verzii a ušetriť 400 eur za zostavenie.
  5. Naozaj potrebujete redundanciu alebo elegantnú záložnú verziu s 2 GPU? Sú to rôzne veci. Dual ATX vám poskytne druhé. Iba backplane CRPS vám poskytne prvé.

Ak viete odpovedať na týchto päť otázok, výber zdroja z matematiky odpadáva. Ďalší článok v sérii W (W05) sa zaoberá teplotou a prúdením vzduchu – druhou polovicou toho, prečo duálne 4U zostavy potrebujú starostlivé vedenie káblov a prečo „priemyselný ventilátor“ nie je marketingový.


Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.