Typy PDU pre serverové racky s umelou inteligenciou: základné, merané, prepínané, ATS
Rozvodná jednotka napájania (PDU) je najnudnejšia vec v racku a kus, ktorý ľutujete ako prvý. Server so 4 grafickými procesormi s umelou inteligenciou má trvalý príkon 1.8 – 2.4 kW; uzol s 8 grafickými procesormi má príkon 3.5 – 4.5 kW. Pri týchto číslach už PDU nie je „tým, do čoho sa server pripája“ – je to merač, mapa ističov, tlačidlo diaľkového resetovania a v zlý deň jediná vec, ktorá vám povie, ktorá zásuvka sa topí.
Tento článok vás prevedie rebríčkom PDU od jednoduchej predlžovacej zásuvky až po inteligentnú jednotku s dvoma zdrojmi, s poctivými cenami, čo vám každá úroveň prinesie a kde sa krivka nákladov a problémov láme v oblasti výpočtov s umelou inteligenciou. Nezávisí od značky.
Úrovne v jednej tabuľke
| Stupeň | Čo to robí | Prehľadnosť jednotlivých predajní | Diaľkové ovládanie | Cena v EÚ, 24 zásuviek 0U |
|---|---|---|---|---|
| základné | Predlžovací kábel v rackovom prevedení | nikto | Nie | €80-150 |
| Merané (vstup) | Zobrazenie agregovaného prúdu/napätia | nikto | Nie | €350-500 |
| Merané podľa zásuvky | Prúd/napätie/výkon na zásuvku | Áno | Nie | €700-1200 |
| zapnutý | Agregátny merač + diaľkové zapínanie/vypínanie zásuvky | nikto | Áno | €900-1400 |
| Spínaný + meraný s odberom zo zásuvky | Celý obraz | Áno | Áno | €1500-3000 |
| Variant ATS (dvojitý vstup) | Prepnutie medzi dvoma zdrojmi | Za každú vyššiu úroveň | Za každú vyššiu úroveň | +400–800 € navyše |
Správna odpoveď pre akýkoľvek AI rack s dvoma alebo viacerými výpočtovými uzlami je prepínaný + zásuvkovo-meraný. To obhájime nižšie.
Základný PDU – nemý prúžok
Predlžovací kábel montovateľný do racku. Fáza, nula, uzemnenie, rad zásuviek, niekedy istič na batériu. Žiadny displej, žiadny sieťový port, žiadna logika. Jeden vstup (zásuvka C20 alebo pevne zapojená zástrčka), šesť až dvadsaťštyri zásuviek v kombinácii C13 a C19, ak máte šťastie, LED dióda napájania.
Čo nezískate: žiadny prehľad o tom, koľko prúdu odoberá ktorákoľvek jednotlivá zásuvka – alebo samotná jednotka. Žiadne diaľkové vypnutie a reštart. Žiadnu integráciu monitorovania. Ak sa server zasekne a ste 200 km ďaleko, zavoláte niekomu s kľúčom od racku.
Základná verzia je vhodná pre laboratórny stôl pod stolom alebo pre jeden vývojový uzol v malej kancelárii, kde vidíte svetlá a dosiahnete na zásuvku. Je to však nesprávna odpoveď pre akýkoľvek produkčný server s umelou inteligenciou, akýkoľvek rack, na ktorý sa nedostanete za 30 minút, a akýkoľvek rack s viac ako dvoma výpočtovými uzlami. Rozdiel medzi základnou verziou (100 €) a metered verziou (400 €) je v porovnaní s jednou grafickou kartou malý; kupujte si minimálne metered verziu.
Meraná PDU – súhrnný prehľad, žiadne podrobnosti o jednotlivých zásuvkách
Meraná PDU pridáva lokálny displej zobrazujúci vstupný prúd, napätie a zvyčajne výkon (kW) a energiu (kWh). Na trojfázových jednotkách zobrazuje hodnoty pre jednotlivé fázy. Lepšie jednotky zobrazujú rovnaké údaje cez SNMP, Modbus TCP alebo HTTP.
Čo stále nedostanete: prúd na zásuvku. Vidíte, že stojan odoberá 18 A. Nevidíte, či je zásuvka 4 9 A a zásuvka 5 0.5 A, alebo či sú obe 4.75 A. Pre heterogénny stojan s umelou inteligenciou je to dôležité. Taktiež nedostanete žiadne ovládanie zásuviek – zásuvky sú vždy zapnuté, kým je jednotka pod napätím.
Táto úroveň predstavuje reálnu hodnotu pre rack s jedným nájomcom, jedným alebo dvoma GPU servermi a prepínačom, kde je záťaž predvídateľná a potrebujete len otázku „sme blízko k vypnutiu ističa“. Preskočte ju a prepnite na meranie zásuviek, ak máte viac ako dva GPU uzly, alebo akúkoľvek povinnosť vrátenia platby, alebo profil záťaže, ktorý sa medzi tréningom a inferenciou na tej istej zásuvke výrazne líši.
PDU s meraním na jednotlivých zásuvkách – meranie na zásuvku, základná línia AI
Prúd, napätie, výkon a energia na zásuvku. Malý prúdový transformátor alebo bočník na každej zásuvke, oslovovaný mnohokrát za sekundu. Rovnaká expozícia SNMP / Modbus / HTTP ako pri meraní, s OID na zásuvku.
Pre výpočty s umelou inteligenciou je to prvá vrstva, ktorá vám poskytuje údaje, ktoré skutočne potrebujete. Vidíte, ktorý GPU server čo čerpá – keď tím pridá tréningový cyklus a vstupný prúd racku sa zvýši z 24 A na 30 A, okamžite viete, že to bol uzol 8× 5090. Účinník na zásuvku odhalí starnúci alebo poddimenzovaný zdroj skôr, ako zlyhá. Akumulátory kWh na zásuvku poskytujú poctivé spätné nabitie. Alarmy na zásuvku (napr. 12 A na C13, 80 % menovitého výkonu) zachytia pokles prúdu skôr, ako vypne istič pred ňou.
Čo stále nemôžete urobiť: diaľkovo vypnúť a zapnúť zaseknutý server. Zásuvka je síce meraná, ale vždy pod napätím.
Jednotky s meračom spotreby v zásuvkách sa pohybujú v cenovom rozpätí 700 – 1 200 EUR – medzi jednotkami s meračom spotreby (400 EUR) a jednotkami s prepínaným meračom (1 500 EUR a viac). Ak ste sa rozhodli, že diaľkové ovládanie zásuviek nikdy nebudete potrebovať, je to obhájiteľné riešenie. V praxi väčšina stojanov s umelou inteligenciou vyžaduje oboje.
Prepínaná PDU — diaľkové ovládanie zásuviek
Prepínaná PDU pridáva za každú zásuvku relé (mechanické alebo polovodičové). Zásuvku môžete zapínať, vypínať alebo cyklicky zapínať (vypínať na N sekúnd a potom zapínať) cez HTTP, SNMP alebo aplikáciu dodávateľa. Agregované meranie je rovnaké ako pri meranej PDU; neexistuje žiadne meranie pre každú zásuvku.
Úžasnou funkciou je reštart bez naštartovania. Počet prípadov, kedy úloha tréningu AI zablokovala server natoľko, že aj IPMI prestal reagovať, nie je nulový. Prepínaný PDU je posledný spôsob, ako zapnúť a vypnúť zariadenie bez toho, aby bolo potrebné poslať človeka. Sekundárne použitie: programovateľné sekvencovanie spustenia po udalosti UPS (aby sa všetky servery nespustili súčasne) a plánované zapnutie/vypnutie laboratórneho vybavenia.
Čo nezískate bez aktualizácie merania zásuviek: žiadny spôsob overenia, či je zásuvka po zapnutí skutočne zaťažená. PDU vám oznámi, že relé je zatvorené; nepovie vám, že server odoberá prúd. Pre spoľahlivý vzdialený reštart naozaj potrebujete oba stavy.
Prepínané + merané zásuvky – ideálna voľba pre AI
Meranie a diaľkové ovládanie jednotlivých zásuviek v jednej jednotke. Toto je správne riešenie pre akýkoľvek produkčný AI rack:
- Odber na zásuvku vo vašom monitorovacom zásobníku popri výkone GPU, teplote miestnosti, koľajniciach zdroja. Anomálie sa zobrazujú na jednom dashboarde.
- Vzdialený reštart v uzavretej slučke. Vypnite relé, sledujte, ako prúd klesne na nulu, počkajte päť sekúnd, zapnite relé, sledujte, ako sa prúd vráti na očakávanú hodnotu voľnobehu.
- Včasné tepelné varovanie. Ak zásuvka 4 začne odoberať 2.6 kW, keď bežne beží na voľnobehu na 1.7 kW, spustí sa alarm skôr, ako sa klimatizácia v miestnosti vypne.
- Skutočné vrátenie platby s kWh s časovou pečiatkou NTP na zásuvku.
Cena: 1 500 – 3 000 € za 24-zásuvkový 0U vertikálny systém. Nižšia ako cena jednej RTX 5090. V racku s grafickými kartami v hodnote viac ako 30 000 € to nie je položka, na ktorej by sa malo šetriť.
Ak sa k racku fyzicky nemôžete dostať – kolokácia, vzdialená kancelária, budova s obmedzeným prístupom – MUSÍTE prejsť. Jeden výlet kamiónom mimo pracovnej doby pokryje rozdiel.
ATS PDU — záložné prepnutie medzi dvoma zdrojmi napájania
Jednotka PDU s automatickým prepínačom (ATS) má dva vstupné káble z dvoch rôznych zdrojov a napája jednu skupinu zásuviek z toho vstupu, ktorý je v poriadku. Keď primárny vinutie poklesne alebo klesne napätie, ATS prepne na sekundárne vinutie v priebehu 8 – 16 ms. V následnom zariadení dôjde iba k krátkemu rušeniu.
Jednotky ATS PDU sú určené pre zariadenia s jedným káblom, ktoré vyžadujú redundanciu zdroja. Moderné servery s duálnymi zdrojmi PSU nepotrebujú ATS – každý zdroj PSU sa zapojí do samostatného PDU na samostatnom zdroji a server natívne zvládne prepnutie pri zlyhaní. ATS je to, po čom siahnete, keď má rack zariadenia s jedným káblom – väčšina sieťových prepínačov, KVM, menších úložných zariadení – a nemôžete tolerovať výpadok zdroja.
ATS vám nekúpi záložnú batériu; ak zlyhajú oba zdroje, zlyhá s nimi aj ATS. Stále chcete mať UPS pred aspoň jedným zdrojom. Taktiež nechráni pred skratmi za zdrojom – chybná zásuvka aj tak vypne istič.
Oplatí sa to pre zmiešaný rack s niektorými servermi s dvoma zdrojmi a niektorými zariadeniami s jedným zdrojom. Prehnané pre rack, kde je už všetko s dvoma zdrojmi (stačí použiť dva nezávislé PDU), alebo pre laboratórium, kde je krátkodobý výpadok nepríjemný, ale nie katastrofálny.
3-fázová distribúcia PDU
Keď stojan prekročí trvalý výkon približne 5 kW, jednofázový prúd 16 A (3.7 kW) je preč a 32 A (7.4 kW) sa zdá byť tesný. Štandardným riešením je trojfázový PDU s 32 A 3P+N+E zástrčkou podľa IEC 60309 (červená, 400 V fáza-fáza / 230 V fáza-nulový vodič).
P_max = √3 × V_LL × I × PF
= 1.732 × 400 V × 32 A × 1.0
≈ 22.2 kVA (about 22 kW at unity PF)
Predpisy EÚ znižujú trvalé zaťaženie na 80 % ističa, takže využiteľný trvalý výkon sa blíži k 17 – 18 kW. To postačuje pre štyri uzly so 4 GPU a sieťové pripojenie, pohodlne.
Interne sú tri fázy (L1, L2, L3) rozdelené medzi vývody jedným z dvoch spôsobov. Fáza na skupinu (zásuvky 1–8 na L1, 9–16 na L2, 17–24 na L3) je to jednoduché, ale riskuje nerovnováhu, ak všetky vaše vysoko zaťažené zariadenia pristanú na rovnakej skupine. Fázovo pruhované (zásuvky 1/4/7 na L1, 2/5/8 na L2, 3/6/9 na L3) umiestňuje susedné zásuvky na rôzne fázy, takže susediace servery sa prirodzene rozdeľujú medzi fázy. Väčšina moderných inteligentných PDU sa štandardne prepája.
Príklad zapojenia pre 3-fázový 32 A PDU napájajúci 4-uzlový AI rack:
Input: IEC 60309 32A 3P+N+E (red, 400/230V)
L1 — 32A L2 — 32A L3 — 32A N PE
Internal: per-phase 32A hydraulic-magnetic breaker
per-outlet relay + CT (switched + outlet-metered)
phase-striped outlets
Outlets (24 total, 12× C19 + 12× C13, 0U vertical):
1 (L1, C19) Node A PSU-1 (8× 5090, ~4.0 kW)
2 (L2, C19) Node A PSU-2 (same node, split delivery)
3 (L3, C19) Node B PSU-1 (4× Pro 6000, ~2.2 kW)
4 (L1, C19) Node B PSU-2
5 (L2, C19) Node C PSU-1 (4× 5090, ~2.0 kW)
6 (L3, C19) Node C PSU-2
7 (L1, C19) Node D PSU-1 (4× 5090, ~2.0 kW)
8 (L2, C19) Node D PSU-2
9 (L3, C13) ToR switch (~80 W)
10 (L1, C13) Mgmt switch (~30 W)
11 (L2, C13) KVM-over-IP (~20 W)
12 (L3, C13) Head/jump host (~150 W)
13–24 Reserve / aux
Per-phase load (all nodes at ~80% sustained):
L1 ≈ 4.1 kW / 17.8 A
L2 ≈ 4.0 kW / 17.4 A
L3 ≈ 2.4 kW / 10.4 A
Dôležité sú tu dve veci. Po prvé, fázové prepojenie vykonáva väčšinu vyvažovania automaticky. Po druhé, uzly s dvojitým zdrojom s rozdeleným napájaním zámerne umiestňujú svoje dva káble na rôzne fázy. Pre akýkoľvek server AI s duálnymi zdrojmi PSU v konfigurácii s rozdeleným napájaním zapojte každý zdroj PSU do inej fázy. — znižuje prúd na fázu na polovicu, zlepšuje priestorovú výšku. („Rozdelené napájanie“ je náš termín pre kopírovanie produktu: dva zdroje, z ktorých každý nesie polovičnú záťaž, nie redundantné 1+1. Rozdiel nájdete v dokumente W04.)
Nerovnováha L3 v uvedenom príklade (približne 14 A delta) je na hranici toho, čo energetické spoločnosti akceptujú. P03 Zahŕňa fázové vyvažovanie medzi rozvádzačmi na úrovni budovy.
C13, C14, C19, C20 – typy zásuviek
| konektor | hodnotenie | Kde to vidíte |
|---|---|---|
| C13 | 10 A / 250 V | Servery ≤1.5 kW, prepínače, KVM |
| C14 | 10 A / 250 V | Vstup na zariadení pre zástrčku C13 |
| C19 | 16 A / 250 V | Vysokoprúdové uzly umelej inteligencie, veľké zdroje |
| C20 | 16 A / 250 V | Vstup na zariadení pre zástrčku C19 |
Párne konce sú vstupy zariadení, nepárne konce sú zástrčky káblov/PDU.
Relevantný bod: Čokoľvek nad približne 1.5 kW trvalého výkonu potrebuje C19/C20, nie C13/C14. Uzol umelej inteligencie so 4 grafickými procesormi a zdrojom s výkonom 2000 – 2400 W prekročil limit C13. Pokus o jeho napájanie cez C13 si vyžaduje roztavený konektor štyri mesiace po nasadení, keď sa v dôsledku tepelných cyklov zvýšil kontaktný odpor.
Správne špecifikovaná AI rack PDU má dostatok zásuviek C19, nielen dve alebo tri. Dobré rozloženie pre 24-zásuvkovú 0U vertikálnu jednotku je 12× C19 + 12× C13. Niektorí dodávatelia dodávajú „kombinované“ zásuvky, ktoré akceptujú C14 alebo C20 v tej istej fyzickej zásuvke – je to v poriadku, len stojí viac. Objednajte si zodpovedajúce káble C19-C20 (0.9–1.2 m pre 0U PDU namontované v zadnej časti racku). Kúpte si tri alebo štyri náhradné – stratia sa.
Menovitý prúd PDU vs. menovitý prúd obvodu
Utility / panel breaker: 32 A 3-phase (C-curve)
Continuous load (80% rule): 25.6 A per phase usable
PDU rating: 32 A per phase
Per-phase outlet sum target: ≤ 25 A
Jednotka PDU s radosťou unesie 32 A na fázu, ak to dovolíte. Predradený istič sa nakoniec vypne pri trvalom prúde 30 A – tepelno-magnetické ističe integrujú preťaženie počas mnohých minút. Naplánujte si to na 80 % a budete mať rezervu na nárazový prúd a krátkodobé špičky. Vlastné ističe na fázu jednotky PDU tvoria druhú vrstvu.
SNMP, Modbus, HTTP — prenos dát
Prepínaná + zásuvkovo-meraná PDU má hodnotu, ktorú z nej dokáže vidieť váš monitoring.
-
SNMP v2c / v3 — univerzálna odpoveď. Každý seriózny predajca publikuje MIB; Prometheusov
snmp_exporterzoškrabe to. Použite v3 tam, kde je to podporované, v2c na riadiacej VLAN tam, kde je to potrebné. Oslovujte každých 30 sekúnd normálne, 10 sekúnd pre rýchlu detekciu anomálií. - ModBus TCP — bežné u značiek zameraných na priemysel. Menej štandardizované ako SNMP (mapy registrov sa líšia), ale spoľahlivé. Prometheus má Modbus exportéry.
- HTTP / JSON REST — moderné inteligentné PDU sú dodávané s rozhraním REST API. Jednoduchšie pre vlastné integrácie; zriedkavejšie ako SNMP.
- Cloudové aplikácie dodávateľov — užitočné na prvý pohľad, nespoliehajte sa na monitorovanie výroby.
- Dashboardy Grafana
- Správca upozornení → Slack / PagerDuty
| metrický | Prah |
|---|---|
| Vstupný prúd na fázu | Výstraha 70 % ističa, strana 85 % |
| Činný výkon na zásuvku | Upozornenie na odchýlku +30 % od 1-hodinového kĺzavého priemeru |
| Celková kWh | Žiadny alarm, graf pre vrátenie platby |
| Vnútorná teplota PDU | Výstraha 50 °C, strana 60 °C |
| Stav výstupného relé vs. povelom | Stránka s nezhodou |
| Dosiahnuteľnosť SNMP | Stránka po 3 minútach nedostupnosti |
Stav relé verzus príkaz je podceňovaná kontrola. Prepínané relé môže zlyhať v stave „zvarené“ (častejšie ako „zvarené“). Dali ste príkaz na vypnutie zásuvky 5, prúd stále tečie, máte zaseknuté relé a server, ktorý nemôžete v skutočnosti resetovať. Chcete to vedieť.
Úprimný pohľad
Pre akýkoľvek stojan so serverom AI s dvoma alebo viacerými výpočtovými uzlami si kúpte spínaný + zásuvkový merač. Trojfázový, ak je trvalé zaťaženie vyššie ako 5 kW a budova má trojfázové napájanie. Variant ATS iba v prípade, že máte neredundantné zariadenia v stojane s dvoma zdrojmi napájania.
Dôvody na odstúpenie sú úzke: jeden uzol na laboratórnom stole, kde dosiahnete na zásuvku, je v základnom nastavení dostatočný; jeden alebo dva uzly vo vašej vlastnej budove s obmedzeným rozpočtom sa môžu zastaviť pri meraní spotreby. Výpočty umelej inteligencie v produkcii, ku ktorým sa nedostanete do 15 minút: prepínanie + meranie spotreby zo zásuvky, bez výnimky.
Chybou je kúpiť si základný alebo meraný systém, aby ste ušetrili 1 000 eur na racku s viac ako 30 000 eurami grafických kariet. Pri prvom 4-hodinovom výpadku, pretože nemôžete na diaľku resetovať zaseknutý uzol, sa vám upgrade PDU zaplatí.
Čo sa zlomí
Poruchové režimy PDU, ktoré sme zaznamenali, v zhrubam poradí frekvencie:
- Zvárané relé na spínaných jednotkách. Výstup dostal príkaz na vypnutie, prúd stále tečie. Alarm pri nesúlade medzi stavom relé a príkazom a výmena jednotky – relé sa neopravujú.
- Posun merania na výstupe. Lacnejšie prúdové transformátory sa po dvoch alebo troch rokoch odchýlia o 5 – 10 %. Ak od toho závisí vrátenie platby, vykonajte každoročnú kalibráciu alebo kúpte zariadenia s uvedenou presnosťou na celú dobu životnosti (dobré zariadenia udávajú presnosť ±1 %).
- Zaseknutie ovládača. Meranie a riadenie sa zablokujú; zásuvky stále prúdia, ale SNMP sa vypne. Väčšina jednotiek má strážny systém, ktorý reštartuje ovládač bez prerušenia napájania zo zásuvky – overte si, či ho má vaša jednotka.
- Tepelná porucha jedného vývodu. Najmä C13 trpí poklesom kontaktného odporu pri trvalom prúde 8 – 10 A. Zmiernenie: pri výkone nad 1.5 kW použite C19 a štvrťročne vykonajte infračervené skenovanie ťažkého stojana.
- Fázová nerovnováha sa časom postupne zvyšuje. Stojan je pri inštalácii vyvážený; o šesť mesiacov neskôr niekto pridal zariadenie na jednej fáze. Zachytávajú to alarmy pre jednotlivé fázy a štvrťročné kontroly.
- Aktualizácia firmvéru znefunkční ovládač. S aktualizáciami firmvéru zaobchádzajte ako s akoukoľvek zmenou produktu: časový úsek údržby, najprv sekundárna jednotka, pripravený plán vrátenia zmien.
Čo urobiť ďalej
Ak hľadáte rack pre výpočty s umelou inteligenciou:
- Vypočítajte trvalé zaťaženie. Sčítajte typický odber záťaže každého servera, nie menovitý. Uzol K-AI so 4 GPU, plán 2.0 – 2.4 kW; uzol s 8 GPU, 3.5 – 4.5 kW. Pripočítajte 10 % na sieť a BMC.
- Jednofázový vs. trojfázový. Pod 5 kW trvalého výkonu je v poriadku jednofázový prúd 32 A. Nad týmto limitom je trojfázový prúd 32 A. Za 17–18 kW už ide o trojfázový prúd 63 A a vyžaduje si seriózny rozhovor s elektrikárom.
- Vyberte úroveň. Predvolené prepínanie + meranie v zásuvke. Zníženie spotreby je možné len s jasným dôvodom.
- Vyberte konektory. Spočítajte si vstupy C19/C20 na skutočných serveroch; zaobstarajte si PDU s aspoň rovnakým počtom zásuviek C19 plus C13 pre sieťové zariadenia a navyše náhradné diely.
- Naplánujte si monitorovanie. SNMP v3, ak je podporovaný; snmp_exporter do Prometheusu; vytvorte dashboard skôr, ako ho budete potrebovať.
- Pre kanály z dvoch zdrojov: Rozhodnite sa, ktorý prevodový stupeň je duálny (dve samostatné jednotky PDU) alebo jednoduchý (jednotka PDU ATS napájaná z oboch). Nekombinujte stratégie na tom istom zariadení.
- Objednajte si náhradné káble C19/C20. Tri alebo štyri. Verte nám.
P03 pokrýva fázové vyváženie medzi viacerými rackmi. P04 zahŕňa dimenzovanie ističov a zapínací prúd. P05 dimenzuje UPS pred PDU.
Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.