Teploty a prúdenie vzduchu v zostavách serverov s viacerými grafickými procesormi a umelou inteligenciou
Server s viacerými grafickými kartami a umelou inteligenciou je z tepelného hľadiska priemyselný ohrievač, ktorý občas robí výpočty. Šasi so 4× RTX 5090 pri trvalom zaťažení nepretržite vydáva 2.4 kW tepla; 8× 5090 vydáva 5 kW. Nič z toho samo o sebe nikam nejde – dopadne na čip GPU, napájacie zdroje, pamäťové moduly a odtiaľ do akéhokoľvek vzduchu, ktorý dokáže šasi vytlačiť von. Ak prúdenie vzduchu nezodpovedá výkonu, kremík ho škrtí a škrtenie na inferenčnom serveri zdvojnásobí latenciu tokenov a potichu zníži priepustnosť na polovicu. Väčšina príbehov o tom, ako sa server spomalil, sa týka tepla, nie softvéru. Toto je stránka zostavy týkajúca sa prúdenia vzduchu, spárovaná s... W04 na napájanie.
Teplo je len sila, preformulované
Každý watt spotrebovaný do GPU sa uvoľňuje ako teplo – karta nevykonáva žiadnu mechanickú prácu, takže neexistuje žiadny faktor účinnosti. TDP, ktoré dimenzujeme:
| GPU | Trvalá TDP | Pevný uzáver | Strop s horúcimi bodmi | Cieľ škrtiacej klapky |
|---|---|---|---|---|
| RTX 5090 (FE / partnerská doska) | 575 W | W ~ 600 | ~95 °C (kremík) | okraj 90 °C |
| RTX 4090 | 450 W | W ~ 500 | ~95 °C | okraj 83 °C |
| Pracovná stanica RTX Pro 6000 Blackwell | 600 W | 600 W | ~90 °C | okraj 88 °C |
| RTX Pro 6000 Blackwell Max-Q | 300 W | 300 W | ~85 °C | okraj 85 °C |
| L40 | 300 W | 300 W | ~87 °C | okraj 87 °C |
| L4 | 72 W | 72 W | ~87 °C | okraj 87 °C |
| Intel ArcPro B70 32 GB | 200 W | 225 W | ~90 °C | okraj 90 °C |
Dve poznámky, ktoré sú dôležité pre rozhodnutia o zostavení. NVIDIA zvýšila prahovú hodnotu plynu na hrane grafickej karty 5090 na ~90 °C (oproti 83 °C na 4090) – čip si pri rovnakom prúdení vzduchu udrží plné frekvencie dlhšie, ale kremík sa viac zahrieva, čo je dôležité pre nasadenie 24 hodín denne, 7 dní v týždni. Karty pre pracovné stanice a dátové centrá (Pro 6000, L40, L4) si pevne držia svoju menovitú hodnotu TDP — neprekračujú limit. Počet spotrebiteľských kariet prudko stúpa. Rad pracovných staníc sa ľahšie chladí predvídateľne; rad spotrebiteľských kariet sa ľahšie nechtiac prekročí.
Prahové hodnoty škrtiacej klapky a ich cena
Škrtiaca páka je gradient, nie prepínač. Na kremíku triedy Blackwell:
| Teplota okraja | Správanie |
|---|---|
| 60-75 ° C | Plný tlak, bez plynu |
| 75-85 ° C | Mierna odchýlka hodín, takmer plné zvýšenie |
| 85-90 ° C | Zníženie limitu Boost, strata 5–10 % |
| 90-95 ° C | Tvrdý plyn, strata hodín 15–25 % |
| > 95 ° C | Agresívny plyn, pamäťový plyn, prípadné núdzové vypnutie |
Inferenciálna záťaž 5090 pri 590 W v studenom stave klesne na ~510 W, keď okrajový senzor prekročí 90 °C – 15 % stratených tokenov za sekundu pri záťaži vLLM 70B, rozdiel medzi dosiahnutím SLO a nedosiahnutím. Čerstvo zapnutá karta dosiahne svoj prvý bod škrtiacej klapky po 60 – 120 sekundách trvalého zaťaženia; benchmarky kratšie ako 5 minút nadhodnocujú trvalú priepustnosť o 10 – 20 %, čo je jeden z najbežnejších spôsobov, ako sa publikované čísla odchyľujú od reality v produkčnom prostredí.
Prúdenie vzduchu v racku spredu dozadu – jediná rozumná architektúra pre nepretržitú prevádzku 24 hodín denne, 7 dní v týždni
Topológie chladičov GPU sa delia na otvorené/axiálne vežové (herné karty pre spotrebiteľov, výfuk dovnútra šasi), radiálne/ventilačné (referenčné karty, výfuk von z I/O držiaka) a pasívne karty pre dátové centrá (L4, L40 – bez ventilátora, ventilátory šasi tlačia vzduch cez rebrá). Pre zostavu so 4 alebo 8 GPU bežiacu 24 hodín denne, 7 dní v týždni, V hustom šasi fungujú iba topológie dúchadla a pasívne topológieV rozvádzači 4U s vertikálne naskladanými kartami odvádza otvorený dizajn teplo do vstupu hornej karty; vrchná karta je umiestnená vo vzduchu s teplotou 50 – 60 °C a v priebehu niekoľkých minút sa zníži jej výkon.
Šasi Kentino 4U a 8U využívajú priemyselné prúdenie vzduchu spredu dozadu so 120 mm ventilátormi, ktoré vyvíjajú vysoký statický tlak na grafické karty. Karty sú typu dúchadlo, pasívne alebo aktívne presmerované pomocou kanálov v šasi. Samotné šasi slúži ako chladič.
Prúdenie vzduchu v racku spredu dozadu: nasávanie vzduchu v studenej uličke → grafické karty v stĺpci prúdenia vzduchu → odsávanie vzduchu v horúcej uličke. Toto udržiava 5090 pod teplotou 85 °C pri nasávaní vzduchu 22 °C.
Statický tlak vs. prietok vzduchu CFM
V technických listoch ventilátorov sa uvádza prietok vzduchu (CFM) a statický tlak (mm H2O). Pre otvorenú skriňu dominuje CFM; pre 4U s hustými chladičmi, stúpačkami, zväzkami káblov a pasívnymi rebrami GPU v ceste, statický tlak dominujeTypický 120 mm ventilátor pre spotrebiteľskú skrinku dosahuje prietok 70 CFM pri tlaku 1.2 mm H2O; 120 mm ventilátor pre priemyselné servery (Delta, Sanyo Denki, Nidec, San Ace) dosahuje prietok 110 CFM pri tlaku 8–12 mm H2O. Prietoková medzera CFM je 60 %; prietoková medzera statického tlaku je 7–10×. V skrini s hustým rozstupom rebier dosahuje ventilátor skrinky prietok približne 20 CFM; priemyselný ventilátor dosahuje 80–90. Preto je skriňa K-AI hlučná (55–62 dBA pri prednej strane racku) a je umiestnená v racku alebo skrini, nie na stole.
Pravidlá: ~40–50 CFM prietoku cez šasi na kW tepla GPU; statický tlak na vstupe ≥ 5 mm H2O; chladič CPU musí byť vežového typu s predným a zadným prietokom, nie s prietokom zhora.
Tlak, filtre a správa káblov
Tlak v podvozku sa rovná nasávaniu v CFM oproti výfuku. Kladný tlak (väčšie nasávanie) uniká vzduch cez každú medzeru a zachytáva prach na prednom filtri; záporný tlak nasáva nefiltrovaný vzduch cez každý šev. Kentino 4U je svojou konštrukciou mierne kladný – tri nasávania, jeden zadný výfuk a jeden výfuk zo zdroja. Filtre sú dôležité: 50 % upchatý nasávací filter znižuje prietok vzduchu cez šasi o 30 – 40 %. V kancelárii kontrolujte každých 90 dní, v laboratóriu každých 30 dní. Väčšina hlásení „server sa po šiestich mesiacoch zahrial viac“ sa týka problémov s filtrom, nie degradácie kremíka.
Káble v prednozadnom vzduchovom stĺpci sú najviac podceňovaným tepelným problémom v zostavách s viacerými grafickými kartami. 24-pinový ATX zväzok prevesený cez nasávaciu stranu GPU 4 znižuje efektívne prúdenie vzduchu tejto karty o 25 – 40 % a zvyšuje teplotu o 5 – 8 °C v porovnaní s jej súrodencami. Napájanie a EPS veďte za priehradkou na základnú dosku, nikdy nie cez stĺpec vzduchu; žiadny kábel neveďte pred stredom GPU. W04 vysvetľuje, prečo rozdelenie napájania pomocou dvoch zdrojov to fyzicky uľahčuje v zostave so 4 grafickými procesormi – polovičná hmotnosť kábla na strane. Voľba dvoch zdrojov je rovnako tepelná ako elektrická.
Rozstup U stojana a horúci výfuk
4U s výkonom 2.4 kW dosahuje teplotu výfukových plynov 35 – 45 °C pri viac ako 100 CFM; 8U s výkonom 5 kW dosahuje teplotu 40 – 50 °C pri viac ako 200 CFM. Zaslepovacie panely v nepoužívaných slotoch U sú povinné v každom uzavretom racku – bez nich sa horúci výfukový plyn vracia späť do studenej uličky. Uzavreté skrinky zatlačené k stene sú najhorším prípadom: horné jednotky sú o 8 – 12 °C teplejšie ako spodné. Jeden prázdny U nad a pod každým serverom s viacerými grafickými procesormi v neuzavretých rackoch zabezpečí 5 – 8 °C priestoru pre nasávanie vzduchu. Obmedzenie horúcej uličky je zmysluplné pri štvorrackovom meradle, čo je pre jeden rackový priestor prehnané.
Reálne merania – 4 GPU a 8 GPU pri trvalom zaťažení
Interné testovacie behy Kentino, inferencia vLLM 70B Q4, 30 minút v ustálenom stave, teplota miestnosti 22 °C ± 1 °C.
| vybudovať | Prívod | Výhoda GPU | Výhoda procesora | Vyčerpať | škrtiacej ventil |
|---|---|---|---|---|---|
| 4× RTX 5090 (4U, EPYC 9354) | 23 ° C | 76-84 ° C | 68 ° C | 41 ° C | Nie |
| 8× RTX 5090 (8U, 2× EPYC 9554) | 24 ° C | 78-86 ° C | 70-72 ° C | 46 ° C | hrana |
| 4× Pracovná stanica Pro 6000 (4U) | 23 ° C | 71-77 ° C | 67 ° C | 43 ° C | Nie |
Cieľom návrhu je 4× 5090 – rozloženie teploty 8 °C v celom rade, zvýšenie teploty udržiavané v nominálnom rozsahu 30 MHz. 8× 5090 sa nachádza bližšie k limitu; GPU 8 pri 86 °C je na hranici, kde začína obmedzenie zvýšenia teploty. V miestnostiach teplejších ako 24 °C začne zostava 8× 5090 strácať boost na najzadnejších kartách. — konfigurácia s 8 grafickými procesormi je tá, kde sa prostredie inštalačnej miestnosti stáva prvotriednym parametrom zostavenia. Pracovná stanica 4× Pro 6000 pracuje chladnejšie pri rovnakej spotrebe energie, pretože pevný 600 W kondenzátor a dvojitý prietokový chladič poskytujú predvídateľnejší pracovný priestor ako spotrebiteľský dizajn 5090 s prechodnými špičkami.
Hotspoty za hranicami grafického procesora
Číslo nvidia-smi hlási sa o snímači hrany – hrane pamäte GDDR alebo kremíkovej hrane, v závislosti od karty. Nie je to najhorúcejšia časť šasi. Dôležité sú aj tri ďalšie miesta:
VRM Pri trvalom zaťažení sa zvyčajne o 10 – 20 °C ohrievajú viac ako čip, s maximálnou teplotou okolo 110 °C. Na doske 5090 s výkonom 575 W telemetria dosky ukazuje teploty napájania v rozmedzí 85 – 95 °C. Karty so slabým chladením napájania spomaľujú teplotu napájania skôr ako kremík – neviditeľné pre nvidia-smi --query-gpu=temperature.gpu, viditeľné iba ako nevysvetliteľná strata frekvencie. Ak sa karta na snímači GPU ochladí, ale stráca napätí, podozrite na VRM.
Pamäť GDDR7 Na 5090 sa prehrieva. Dlhodobá inferencia s veľkou aktivačnou prevádzkou zvyšuje teplotu pamäťových uzlov na 95 – 100 °C. Karta najprv znižuje frekvenciu pamäte (strata šírky pásma 3 – 5 %) a potom frekvenciu GPU. Pri úlohách viazaných na pamäť je úzkym hrdlom teplota pamäte, nie teplota jadra.
NVMe SSD sú tichým zabijakom. Disk PCIe 5.0, ktorý vykonáva trvalé čítanie (načítavanie váh 70B, streamovanie dátových súborov), dosiahne 70 – 80 °C v priebehu niekoľkých sekúnd bez aktívneho chladenia. Nad ~75 °C sa radič obmedzí a šírka pásma čítania sa zníži na polovicu. Modelové načítanie, ktoré „malo trvať 8 sekúnd“, trvá 16 a nikto nevie prečo. Každá zostava K-AI dodáva NVMe s chladičmi v dráhe prúdenia vzduchu v šasi.
Na monitorovanie všetkého, čo je vo výrobe dôležité:
nvidia-smi --query-gpu=index,temperature.gpu,temperature.memory,clocks.gr,clocks.mem,power.draw \
--format=csv -l 5
Pre NVMe, nvme smart-log /dev/nvme0 hlási teploty ovládača a kompozitného materiálu; alarm pri 70 °C kompozitného materiálu. Teplota VRM je zobrazená na kartách Pro 6000 prostredníctvom DCGM (dcgm-exporter pre Prometheus); na spotrebiteľských kartách je špecifický pre výrobcu dosky a často sa objavuje iba v nástrojoch systému Windows – jeden z niekoľkých dôvodov, prečo uprednostňujeme karty pracovných staníc v dlhodobo prevádzkovaných produktoch.
Teplota okolitej miestnosti a obálka ASHRAE
Norma ASHRAE TC9.9 definuje tepelné limity, ktoré návrh dátového centra dodržiava. Trieda A1 (kolokácia úrovne 1) odporúča vstupnú teplotu 18 – 27 °C; trieda A2 (všeobecný podnik) rozširuje povolenú teplotu na 10 – 35 °C. Rad K-AI je navrhnutý podľa A2, ale limit bez škrtenia pre šasi 4× alebo 8× 5090 sa nachádza vo vnútri A1: 22 °C vstupnej teploty je návrhový bod, 26 °C je praktický strop pred začiatkom straty plniaceho tlaku. Dôležitá je aj vlhkosť: ASHRAE odporúča 20 – 80 % bez kondenzácie. Cieľom je dosiahnuť 40 – 60 % relatívnej vlhkosti po celý rok.
| vybudovať | Odporúčané prostredie | Strop (bez škrtiacej klapky) | Tvrdý strop (akýkoľvek plyn) |
|---|---|---|---|
| 4 × 4090 | 18-24 ° C | 26 ° C | 30 ° C |
| 4 × 5090 | 18-22 ° C | 24 ° C | 28 ° C |
| 4× Pro 6000 | 18-25 ° C | 27 ° C | 32 ° C |
| 8 × 5090 | 18-22 ° C | 23 ° C | 26 ° C |
| 8× Pro 6000 | 18-24 ° C | 25 ° C | 29 ° C |
| 8× L40 | 18-26 ° C | 28 ° C | 32 ° C |
| 8× L4 | 18-28 ° C | 30 ° C | 35 ° C |
Čísla L40 a L4 sú dôvodom, prečo sú tieto karty stále zaujímavé pre kancelárske nasadenie: tolerujú bežné kancelárske vykurovanie, vetranie a klimatizáciu. Zostava s 8 grafickými procesormi 5090 potrebuje serverovňu alebo skriňu so samostatným chladením a bodka.
Dimenzovanie HVAC v jednom odseku
Chladiaca záťaž miestnosti sa rovná trvalému odberu energie zo steny: 1 kW = 3 412 BTU/hod. Server s výkonom 2.4 kW a 4 GPU má ~8 200 BTU/hod; server s výkonom 4.5 kW a 8 GPU má ~15 400 BTU/hod. Veľkosť AC pri 1.3-násobku ustáleného zaťaženia — rovnaké pravidlo pre rezervu ako pri zdrojoch. Delený systém s výkonom 12 000 BTU na serveri s výkonom 2.4 kW pracuje pri 100 % zaťažení a vybije kompresor za 18 – 30 mesiacov; jednotka s výkonom 24 000 BTU pri rovnakom zaťažení pracuje pri 50 % zaťažení a vydrží 8 – 10 rokov. Presné chladenie (CRAC) sa stáva relevantným nad 10 kW; pod touto hranicou stačí správne dimenzovaný delený systém.
Tvarový faktor: 4U rack, 8U rack, veža
Zostava K-AI používa tri: 4U stojan pre zostavy so 4 grafickými kartami (3× 120 mm nasávanie, 1× zadný, duálny ATX, 19-palcový rack), 8U stojan pre zostavy s 8 GPU (ventilátory pre priemyselné servery, napájanie CRPS, základná doska s dvoma procesormi, zhruba dvojnásobná hustota tepla oproti 4U) a vežová pracovná stanica pre vývojové boxy s 1 a 2 GPU (PWM ventilátory, vhodné do kancelárie). S viac ako 2 GPU nedodávame veže – vertikálne šasi so 4 GPU dosiahne teplotu na vrchnej karte hranicu 90 °C v priebehu 20 minút trvalého zaťaženia. Rovnaký hardvér v 4U racku zostáva pod 85 °C neurčito.
Kvapalné chladenie – kedy a prečo
Vzduch zvládne ~600 W na GPU v dobre navrhnutej 4U skrinke; nad túto hodnotu je odpoveďou kvapalina. AIO na kartu znižuje teplotu GPU o 15 – 25 °C, ale pridáva rádovú veľkosť zložitosti, pričom novými poruchovými režimami sú porucha čerpadla a tiché odparovanie chladiacej kvapaliny. Priame pripojenie k čipu s výmenníkom tepla v zadnej časti racku napojeným na chladenú vodu v zariadení je správnym riešením pri 16+ GPU na klaster. Ponorenie do dielektrickej kvapaliny je efektívne, drahé a úplne mení model prevádzkyschopnosti.
Pre aktuálny rad Kentino – vzduchom chladené šasi s výkonom až 600 W na kartu – vzduch je správna odpoveďZostava so 4 procesormi 5090 dosahuje teplotu 78 – 84 °C s nulovým škrtiacim ventilom, 24 hodín denne, 7 dní v týždni, v studenej uličke s teplotou 22 °C. Liquid by ju zvýšil na 55 – 65 °C a získal by niekoľko percent zvýšenia frekvencie; rozdiel kapitálových výdavkov a zložitosti to v tomto rozsahu neodôvodňuje.
Čo robiť ďalej – kontrolný zoznam pre monitorovanie teploty
Ak dimenzujete tepelnú stránku stavebnej alebo rozmiestňovacej miestnosti:
- Je v miestnosti inštalácie studená ulička? Merajte pri realistickom zaťažení, nie v nedeľu s klimatizáciou bežiacou naplno. Porovnajte s tabuľkou s teplotami okolia vyššie.
- Chladenie miestnosti s rozmermi 1.3× odber servera zo steny? Klimatizácia dimenzovaná presne tak, aby zodpovedala záťaži, pracuje so 100 % pracovným cyklom a pokazí sa do dvoch rokov.
- Kam ide horúci výfukový plyn? Otvorený rack s horúcou uličkou je v poriadku; uzavretá skriňa bez izolácie alebo skriňa so serverom otočeným k stene nie je.
- Pracovný cyklus? Vývojársky box s 30% zaťažením má iné potreby chladenia ako inferenčný server s nepretržitou prevádzkou.
- Filter a plán rastu? Zanesený filter potichu znižuje prietok vzduchu na polovicu; druhý server zdvojnásobuje tepelnú záťaž. Naplánujte si oboje.
-
Beží telemetria?
nvidia-smioslovované s intervalom 5 s pre hranicu GPU / pamäť / frekvenciu / napájanie,nvme smart-logpre meniče, DCGM pre VRM, ak je k dispozícii, teplota okolia v miestnosti + vlhkosť v monitorovacom komíne s alarmmi pri 27 °C a vonkajšej relatívnej vlhkosti 40 – 60 %.
Dizajn na úrovni šasi – prúdenie vzduchu spredu dozadu, priemyselné 120 mm ventilátory, fúkacie alebo pasívne grafické karty, disciplinované vedenie káblov – je štandardne súčasťou každej zostavy K-AI. Miestnosť a rack sú na strane zákazníka a práve tam vzniká väčšina problémov v teréne.
W06 (ďalší v rade W) pokrýva úrovne úložiska – rozloženia NVMe, SAS a hromadné fondy, ktoré sa spárujú s týmito výpočtovými šasi.
Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.