Výber GPU pre úlohy AI: 5090, 4090, RTX Pro 6000, L40, L4 Head-to-Head
V roku 2026 neexistuje univerzálne správna grafická karta pre prácu s umelou inteligenciou. Existuje správna grafická karta pre definované pracovné zaťaženie, definovaný výkonový limit a definovaný rozpočet – a nesprávna karta v správnom šasi je drahšia chyba ako správna karta v nesprávnom šasi. Tento článok porovnáva celý rad produktov Kentino priamo v sebe, so skutočnými číslami výkonu, čestnými kompromismi a postupom rozhodovania, ktorý sme skutočne použili pri hovoroch so zákazníkmi. Nepredstiera, že H100 a A100 neexistujú; existujú, my ich nepredávame a budeme konkrétni v tom, kedy bude tento rozdiel dôležitý.
Karty na stole:
- RTX 5090 — 32 GB GDDR7, 1.79 TB/s, 575 W, spotrebiteľská verzia.
- RTX 4090 — 24 GB GDDR6X, 1.01 TB/s, 450 W, spotrebiteľská, predchádzajúca generácia.
- RTX Pro 6000 Blackwell Server Edition — 96 GB GDDR7 ECC, 600 W, pasívne chladenie, serverový formát, bez zobrazovacích výstupov.
- RTX Pro 6000 Blackwell Max-Q — 96 GB GDDR7 ECC, 300 W, dvojslotový ventilátor, rovnaký kremík ako pracovná stanica.
- L40 — 48 GB GDDR6 ECC, 0.86 TB/s, 300 W, formát pre dátové centrum, plná ECC.
- L4 — 24 GB GDDR6, 0.30 TB/s, 72 W, nízkoprofilová jednoslotová, edge inference.
Špecifikácie, na ktorých skutočne záleží
Technické údaje grafických kariet sú obsiahle a väčšina čísel nemení rozhodnutie o kúpe. Tri z nich áno.
- Kapacita VRAM. Toto je binárne. Buď váš model sedí, alebo nie. Odľahčenie CPU nie je funkčnou náhradou (uvedené v W01).
- Šírka pásma VRAM. Generovanie tokenov na transformátore je obmedzené šírkou pásma. TFLOPS uvedené v technických údajoch sú pre inferenciu do značnej miery irelevantné.
- Trvalý výkon a tvarový faktor. 600 W karta v šasi, ktoré nedokáže odvádzať teplo, je 300 W karta s tepelným alarmom. 72 W karta v 1U serveri je iný stroj ako 575 W karta v 4U pracovnej stanici.
| GPU | VRAM | Bandwidth | TDP | Tvarový faktor | ECC | Poznámky |
|---|---|---|---|---|---|---|
| RTX 4090 | 24 GB GDDR6X | 1.01 TB / s | 450 W | 3-slotový spotrebiteľ | Nie | Predchádzajúca generácia, cesta znižovania nákladov |
| RTX 5090 | 32 CZ GDDR7 | 1.79 TB / s | 575 W | Spotrebiteľ s 2–3 sloty | Nie | Perf/€ kráľ pre inferenciu |
| RTX Pro 6000 BW Max-Q | 96 CZ GDDR7 | 1.79 TB / s | 300 W | 2-štrbinový ventilátor | Áno | Vysoká hustota, nižší výkon |
| RTX Pro 6000 BW Server Ed. | 96 CZ GDDR7 | 1.79 TB / s | 600 W | 2-slotový pasívny | Áno | Serverová úroveň, bez headless |
| L40 | 48 CZ GDDR6 | 0.86 TB / s | 300 W | 2-slotový pasívny | Áno | Generovanie ADA v dátových centrách |
| L4 | 24 CZ GDDR6 | 0.30 TB / s | 72 W | 1-slotová LP platňa | Áno | Inferencia Edge / 1U |
| H100 SXM (referenčný, nepredáva sa) | 80 GB HBM3 | 3.35 TB / s | 700 W | SXM5 | Áno | Úroveň hyperškálovania |
| H200 SXM (referenčný, nepredáva sa) | 141 GB HBM3e | 4.80 TB / s | 700 W | SXM5 | Áno | Kráľ šírky pásma HBM |
Inferencia: žetóny za sekundu, podľa modelu a karty
Generovanie inferenčných tokenov v jednom streame je približne súčin šírky pásma a veľkosti modelu vynásobený faktorom účinnosti zásobníka 0.6 – 0.8. Tabuľka nižšie zobrazuje naše namerané hodnoty na benchmarkových zostaveniach s vLLM 0.6+ a llama.cpp aktuálne k 2. štvrťroku 2026. INT4, pokiaľ nie je uvedené inak. Najprv priepustnosť v jednom streame; v zátvorkách je uvedená dávková agregácia, kde je merateľná.
| Modelka | Quant | Veľkosť | RTX 4090 | RTX 5090 | Server/WS Pro 6000 BW | Pro 6000 Max-Q | L40 | L4 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5 7B | INT4 | ~4 GB | 110 - 130 (220) | 180 - 220 (340) | 180 - 220 (340) | 170 - 200 (320) | 90 - 110 (200) | 35 - 45 (90) |
| Lama 3.2 13B | INT4 | ~7 GB | 70 - 85 (170) | 120 - 140 (250) | 120 - 140 (250) | 110 - 130 (230) | 60 - 75 (140) | 22 - 28 (60) |
| Qwen2.5 32B | INT4 | ~18 GB | 32 - 38 (90) | 55 - 65 (140) | 60 - 70 (150) | 55 - 65 (140) | 28 - 34 (80) | nesedí |
| Lama 3.3 70B | INT4 | ~40 GB | nehodí sa pre jedného | potrebuje 2× (24–30) | 28–34 (90) jedna karta | 27 - 32 (85) | potrebuje 2× (16–22) | nesedí |
| Qwen2.5 72B | INT4 | ~42 GB | nehodí sa pre jedného | potrebuje 2× (24–30) | 28–34 (90) jedna karta | 27 - 32 (85) | potrebuje 2× (16–22) | nesedí |
| Qwen2.5-VL 72B | INT4 | ~46 GB+ | nehodí sa pre jedného | potrebuje 2× (12–18) | 18–24 jedna karta | 17-22 | potrebuje 2× (10–14) | nesedí |
| Lama 3.1 405B | INT4 | ~210 GB | nesedí | potrebuje 8× | 4× (jeden uzol) | 4× (jeden uzol) | potrebuje 5× | nesedí |
Niekoľko úprimných výhrad. Toto sú typické čísla na správne chladenom šasi s plne rezidentným modelom. TTFT so studenou vyrovnávacou pamäťou je dominantne zameraný na alokáciu KV vyrovnávacej pamäte a predfill výpočty, nie na šírku pásma, a v tomto rozsahu kariet sa pohybuje v rozsahu 200 – 900 ms. Dávkovaná priepustnosť sa sublineárne škáluje nad 8 – 16 súbežnými streammi kvôli súpereniu o výpočty. Ak je vaša aplikácia interaktívna (chat, krok za krokom agent), dôležitejší je jeden stream ako dávkový. Ak je vaša aplikácia hromadná (spracovanie dokumentov, automatické označovanie), dôležitejší je dávkový priepustnosť.
Stavebný blok 4× 5090 je ťažným koňom našej zostavy z nejakého dôvodu: len v kartách stojí 8 500 – 14 000 eur, do 4U šasi s primeraným prúdením vzduchu sa zmestia štyri GPU a na Llama 3.3 70B INT4 v režime vLLM s tenzorovým paralelizmom poskytuje celkovo ~12 000 tok/s. Jeden Pro 6000 Blackwell za 8 500 eur poskytuje ~30 tok/s v jednom streame a ~90 tok/s v dávkach na tom istom modeli. Pre viacpoužívateľské serverové zaťaženie vyhráva 5090. Pre rozsiahle kontextové zaťaženie jedného používateľa s modelmi s kapacitou 64 GB a viac vyhráva Pro 6000. Neexistuje univerzálne riešenie.
Kde každá karta skutočne dáva zmysel
RTX 5090 — kráľ performancie/€ s ostrými hranami. Správna odpoveď, keď je pracovná záťaž odvodená, rozpočet je reálny, ale nie neobmedzený a nasadenie toleruje dve známe obmedzenia: žiadne ECC a prechodové výkyvy napájania spotrebiteľskej triedy, ktoré vyžadujú starostlivosť o zdroj a šasi (pozri W04). Pre modely 13B a 32B je 5090 rýchlejší na euro ako čokoľvek iné na stole. V triede 70B poskytujú štyri 5090 v tenzorovom paralelnom zapojení vyššiu celkovú priepustnosť ako jedna Pro 6000 Blackwell pri nižších celkových kapitálových výdavkoch. Nevýhoda: nominálny výkon 575 W s prechodovým výkonom viac ako 600 W, strop 32 GB na kartu, ktorý núti používať viacero GPU pre 32B+ pri vysokom kontexte. Vyberte si, keď: 24/7 inferencia pre 7B–32B, pomer výkonu/€ je dôležitý, máte prúdenie vzduchu v racku, ECC nie je prísnou požiadavkou na zhodu. Vyhnite sa, keď: povinná ECC, jedna karta 70B+ alebo miestnosť nedokáže odviesť 2.4 kW tepla.
RTX 4090 — iba staršia verzia so zníženou cenou. V roku 2026 taktický nákup. Nové maloobchodné predaje sú zriedkavé; použité a zvyškové náklady na kanál sa pohybujú okolo 1 400 – 1 900 EUR. Na kartu je ~55 % rýchlejšia ako 5090 pri inferencii viazanej na pamäť (1.01 oproti 1.79 TB/s) a 24 GB oproti 32 GB – 8 GB je dôležitých, pretože model s 32B INT4 ponecháva na 5090 viac miesta pre KV-cache. Stále to dáva zmysel pre rozšírenie existujúcej flotily 4090 s obmedzenými kapitálovými výdavkami. Začínate odznova? Kúpte si 5090.
RTX Pro 6000 Blackwell Server Edition — kráľ VRAM pre náročné pracovné záťaže. 96 GB ECC GDDR7 s rýchlosťou 1.79 TB/s mení, ktoré modely môžete hostovať. Jedna karta pojme Qwen2.5-VL 72B INT4 s pohodlnou vyrovnávacou pamäťou KV pre približne 20 súbežných streamov. Štyri v jednom uzle pojme Llama 3.1 405B INT4 v jednom šasi bez prepojenia medzi uzlami. Pasívne chladenie, navrhnuté pre prúdenie vzduchu v racku spredu dozadu, bez výstupov na displej, overené pre nepretržitú prevádzku 24 hodín denne, 7 dní v týždni. Rovnaký kremík ako Workstation Edition, rovnaký kondenzátor 600 W, iné chladenie. Vyberte si, kedy: jedna karta s kapacitou viac ako 70B, vyžaduje sa ECC, nasadenie v racku so správnym prúdením vzduchu, tréning v mixe alebo menej väčších kariet prevyšuje viac menších kariet z hľadiska miesta v racku a napájania.
RTX Pro 6000 Blackwell Max-Q — vysoká hustota bez nutnosti prepojovania miestnosti. Rovnakých 96 GB a 1.79 TB/s, obmedzené na 300 W. Štyri karty Max-Q odoberajú z GPU 1.2 kW; štyri karty Server Edition odoberajú 2.4 kW. Zníženie výkonu kvôli obmedzeniu výkonu je reálne, ale menšie ako pomer výkonu – krivka výkonu/W u Blackwellu je na hornom konci strmá, takže obmedzenie na 300 W stráca 20 – 30 % na inferenčnej priepustnosti, nie 50 %. Vyberte si, keď: prostredie s obmedzeným výkonom, chcete 96 GB na kartu, hustota je dôležitejšia ako špičková priepustnosť na kartu alebo dôležitá je akustika.
L40 – inferenčná karta podniku s ECC a históriou. Generácia Ada. Pomalšia ako Blackwell, čo sa týka šírky pásma (0.86 oproti 1.79 TB/s) a kapacity (48 oproti 96 GB), cena je ako SKU dátového centra. Dôvodom na kúpu je obstarávanie: plná ECC, overené ovládače, trvalý výkon 300 W, viac ako dva roky produkčného nasadenia. Pre prostredia, ktoré zakazujú spotrebiteľské karty (poisťovníctvo, vláda, niektoré regulované odvetvia), je to karta, ktorá spĺňa všetky požiadavky. Pokiaľ ide o pomer hrubého výkonu/€, prehráva s 5090. Vyberte si, kedy: politika obstarávania zakazuje spotrebiteľský hardvér, pracovná záťaž sa zmestí do 48 GB, spoľahlivosť 24/7 je dôležitejšia ako pomer výkonu/€.
L4 – inferencia hrany, 1U, 72 W. Jediná karta v tomto zozname, ktorá sa bez problémov zmestí do 1U servera popri systémovej doske a jediná, ktorá beží s energetickým rozpočtom notebooku. 72 W TDP, jednoslotová nízkoprofilová, pasívna, 24 GB GDDR6 ECC, 300 GB/s. Úzkym hrdlom je šírka pásma – single stream 7B dosahuje rýchlosť 35–45 taktov/s, čo je „v poriadku“, nie „rýchlo“. Prípadom použitia je rozdelenie do vetví: 8× L4 v 2U šasi na jednom hostiteľovi EPYC poskytuje 8 súbežných 7B inferenčných streamov pri nízkych celkových nákladoch (~20 000 EUR v kartách), spotrebuje menej ako 700 W a hodí sa do akéhokoľvek kancelárskeho obvodu. Vyberte si, kedy: nasadenie na okraji siete, 1U/2U, obmedzený výkon, model sa zmestí do 24 GB, metrikou je priepustnosť na watt.
Výkonnosť na euro: tabuľka, ktorú by ste nemali ukazovať svojmu finančnému riaditeľovi
| GPU | Cena (€) | 7B INT4 tok/s (jednoduchý) | tok/s na 1 000 € | 70B INT4 tok/s* | 70 miliárd tokov za 1 000 € |
|---|---|---|---|---|---|
| RTX 4090 (zvyškové zásoby) | ~ € 1,700 | 120 | 70.6 | potrebuje 2× = 28 | 8.2 (na základe 4-kartového klastra) |
| RTX 5090 | ~ € 2,400 | 200 | 83.3 | potrebuje 2× = 28 | 5.8 (na základe 2-kartového klastra) |
| RTX Pro 6000 BW Max-Q | ~ € 8,500 | 185 | 21.8 | 30 samostatných kariet | 3.5 |
| Server RTX Pro 6000 BW | ~ € 8,800 | 200 | 22.7 | 31 samostatných kariet | 3.5 |
| L40 | ~ € 7,800 | 100 | 12.8 | potrebuje 2× = 19 | 1.2 (na základe 2 kariet) |
| L4 | ~ € 2,500 | 40 | 16.0 | nesedí | n / a |
| H100 SXM (referencia) | ~ € 28,000 | 220 | 7.9 | 60 samostatných kariet | 2.1 |
*Pre 70B INT4: počet na kartu, keď sa model zmestí na jednu kartu; súhrnná priepustnosť jedného streamu, keď sa vyžaduje tenzorový paralelizmus viacerých kariet, vydelená celkovými nákladmi na kartu.
Model 5090 je kráľom v pomere výkon/€ pre každú veľkosť modelu, do ktorej sa zmestí. Karty Pro 6000 vyhrávajú na inej osi: modely triedy 70B na jednej karte eliminujú latenciu a zložitosť tenzorového paralelizmu. L40 má v tejto tabuľke s veľkým náskokom najhorší pomer výkon/€ – stojí zhruba 3× viac ako 5090 za ~50 % inferenčného výkonu. Jeho hodnotovou ponukou je súlad s predpismi o obstarávaní a história výroby generácie Ada, nie surová ekonomika. L4 je víťazom v pomere výkon/€ najmä v segmente malých modelov s nízkou spotrebou energie, kde nemá konkurenciu.
Výkon na watt: tabuľka pre manažéra kolokácie
| GPU | TDP | 7B tok/s | tok/s na W | 70B tok/s* | 70B tok/s na W |
|---|---|---|---|---|---|
| L4 | 72 W | 40 | 0.56 | n / a | n / a |
| RTX Pro 6000 BW Max-Q | 300 W | 185 | 0.62 | 30 | 0.10 |
| L40 | 300 W | 100 | 0.33 | 19 (×2) | 0.03 |
| RTX 5090 | 575 W | 200 | 0.35 | 28 (×2) | 0.024 |
| RTX 4090 | 450 W | 120 | 0.27 | 28 (×2) | 0.031 |
| Server RTX Pro 6000 BW | 600 W | 200 | 0.33 | 31 | 0.052 |
| H100 SXM (referencia) | 700 W | 220 | 0.31 | 60 | 0.086 |
V tejto zostave vyhráva Max-Q v pomere výkon/W a ani zďaleka nie. Obmedzenie 96 GB Blackwell na 300 W udržiava kartu v efektívnej časti svojej krivky a väčšinu priepustnosti Server Edition získate pri polovici odberu zo siete. Pri kolokácii, kde je energia meraná a platíte nepretržite 0.18 – 0.30 € za kWh, Max-Q ušetrí skutočné peniaze počas viacročného nasadenia v porovnaní s Server Edition. Máme zákazníkov, ktorí prešli zo Server Edition na Max-Q špeciálne preto, aby sa vyhli modernizácii chladiacich zariadení svojej budovy.
Poznámky k školeniam a dolaďovaniu
Tréning nie je primárnym zameraním spoločnosti Kentino – väčšina zákazníkov si kupuje inferenciu. Ale jemné ladenie sa objavuje všade a voľba pre tréning má iné obmedzenia. Tréning všetkých parametrov modelov 70B+ nie je v tejto zostave uskutočniteľný; to vyžaduje 8× H100/H200 SXM alebo prenajatý cloud, a to si môžeme povedať. Jemné ladenie LoRA modelov 7B–32B funguje pohodlne na 4× 5090 alebo 4× Pro 6000 BW Max-Q. QLoRA modelu 70B uprednostňuje 2× Pro 6000 BW (akákoľvek edícia) pred 4× 5090 s FSDP, pretože jedna karta na repliku modelu je dramaticky jednoduchšia. Rozhodovacie pravidlo: ak trénovacie behy trvajú viac ako 24 hodín a sú bez obsluhy, záleží na ECC – vyberte si Pro 6000 alebo L40. Pri menej ako 24 hodinách s človekom v slučke je 5090 v poriadku a rýchlejší na euro.
Vizuálny jazyk a otázka Pro 6000 vs H100
VLM menia kalkul, pretože aktivačná stopa je väčšia a predplnenie (kódovanie obrazu) je viac viazané na výpočtový výkon. Pre Qwen2.5-VL 72B INT4 (~46 GB) poskytuje Pro 6000 BW 18 – 24 taktov/s na jednej karte s ~1.4 s predplnením; 2× 5090 v tenzorovo-paralelnom spracovaní poskytuje 12 – 18 taktov/s s 20 – 40 ms TP réžiou na token. Pre robotickú lokálnu inferenciu je Pro 6000 BW čestnejšou voľbou, pretože Qwen2.5-VL 72B je model, ktorý ľudia skutočne chcú používať, a jedna karta eliminuje TP réžiu. Pre automatické označovanie kanálov a hromadné prevody obrázkov na text, kde latencia nezáleží, 4× 5090 stále vyhráva v pomere výkon/€.
Úprimné porovnanie: Pro 6000 BW vs H100
Nepredávame H100. Budeme konkrétni ohľadom kompromisu, pretože sa zákazníci pýtajú.
Na jednu kartu poráža H100 SXM (80 GB HBM3, 3.35 TB/s) Pro 6000 BW Server (96 GB GDDR7 ECC, 1.79 TB/s) v inferencii jedného streamu s obmedzenou šírkou pásma približne o 1.5–1.9× – teda 60 tok/s oproti 31 tok/s na Llama 3.3 70B INT4. H100 má tiež NVLink a mezanínový konektor SXM5, ktorý v uzle HGX 8-GPU zabezpečuje prepojenie GPU-GPU s rýchlosťou 900 GB/s. Pro 6000 BW má PCIe 5.0 x16 (efektívne ~63 GB/s), čo je približne 14× pomalšie pri prenose medzi kartami.
Pri inferencii modelov, ktoré sa zmestia na 96 GB na jednu kartu, je tento rozdiel neviditeľný – nedochádza k žiadnej prevádzke medzi kartami. Pri inferencii modelov, ktoré je potrebné rozdeliť na 4× alebo 8× karty, H100 s NVLink vyhráva o 30 – 50 % v agregovanej priepustnosti, pretože tenzorový paralelizmus je citlivý na prepojenie. Pri trénovaní na 8 kartách H100 jednoznačne vyhráva.
Cenový rozdiel je 3 – 3.5× za kartu a 8 – 12× za použiteľný uzol (HGX H100 zahŕňa nosnú dosku a NVSwitche). Pre väčšinu nehyperscale úloh tento pomer nie je fixný. V prípade úloh, kde áno, zákazník nekupuje od spoločnosti Kentino – kupuje priamo od spoločností Dell, Lenovo alebo Supermicro v 8-ciferných hodnotách. Povieme si to aj telefonicky.
Čo nepovieme: že karta Pro 6000 Blackwell je „rovnako dobrá“ alebo „konkurencieschopná“ s kartou H100. Nie je to tak, podľa metrik, pre ktoré bola karta H100 navrhnutá tak, aby zvíťazila. Je to však tá správna karta pre prípady použitia, kde 96 GB ECC s rýchlosťou 1.79 TB/s rieši skutočný problém zákazníka – čo je väčšina problémov.
Tok rozhodovania
Začiatok: Aká je pracovná záťaž?
-
Iba inferencia?
-
Interaktívny jeden stream (chat, agent, hlas)?
- Model sa zmestí do 32 GB (7B–32B INT4)?
- Rozpočet je napätý: 4× RTX 5090
- Vyžaduje sa ECC (súlad): 4× L40
- Kancelária s obmedzenými možnosťami výkonu: 4× Pro 6000 BW Max-Q
- Model potrebuje 32–80 GB (70B INT4, VLM 72B):
- Chcete jednoduchosť s jednou kartou: 1–2× Server Pro 6000 BW
- Priorita Perf/€, akceptujeme obojsmerný TP: 4× RTX 5090
- Obmedzený výkon: 2× Pro 6000 BW Max-Q
- Model 80 GB+ (405B INT4, viacmodelový hosting):
- 4× alebo 8× Pro 6000 BW Server v šasi s 8 GPU
- Zvážte, či je cloud naozaj to správne rozhodnutie
- Model sa zmestí do 32 GB (7B–32B INT4)?
-
Dávkované hromadné spracovanie (automatické označovanie, spracovanie dokumentov)?
- Malý model (7B–13B): 8× L4 v 2U (okraj) alebo 4 × 5090 (stojan)
- Veľký model (70B+): 4× Server Pro 6000 BW or 8 × 5090
-
Edge / 1U / s obmedzeným napájaním?
- 1–8× L4
-
Interaktívny jeden stream (chat, agent, hlas)?
-
Tréning alebo dolaďovanie?
- LoRA / QLoRA / jemné doladenie (väčšina zákazníkov):
- 7B – 13B: 4× RTX 5090 (ECC nie je kritické)
- 32B – 70B: 4× Server Pro 6000 BW (ECC + kapacita)
- Dlhé bezobslužné prevádzky: vždy si vyberajte diely ECC
- Tréning 70B+ s plnými parametrami: nie je tu uskutočniteľné — odporúčam cloud alebo DGX-class
- Jemné doladenie difúzie / VLM: Pro 6000 BW pre veľkosť dávky, 5090 za perf/€ pri menších dávkach
- LoRA / QLoRA / jemné doladenie (väčšina zákazníkov):
-
Zmiešané (tréning + inferencia, výskumné laboratórium)?
- 4-GPU: 4× Server Pro 6000 BW (Max-Q pri obmedzení výkonu)
- 8-GPU: 8× Server Pro 6000 BW v šasi s dvoma procesormi EPYC
- Mix-and-match: 4× 5090 inference + 1× Pro 6000 BW tréning v rovnakom šasi je funkčný, ale nie celkom pekný
Vetva, ktorá sa rozhoduje o „4× RTX 5090“, je najbežnejšia zostava, ktorú dodávame. Vetva, ktorá sa rozhoduje o „4× Pro 6000 BW Server“, je druhá. Vetva L4 a vetva Max-Q sú objemovo menšie, ale ani jedna nie je špecifická – každý štvrťrok dodávame viacjednotkové zostavy do kancelárskych priestorov, kde by 600W karty neprežili elektrickú rozvodnú sieť budovy.
Čo nemáme na sklade
Jednoducho povedané: Kentino nepredáva hardvér triedy H100 SXM, H200 SXM, A100 SXM, B200 ani GB200 NVL. Formát SXM5 a ekosystém nosných dosiek HGX/NVL žijú v úrovni dodávateľského reťazca, v ktorej sa my nenachádzame. Varianty PCIe H100 existovali krátko a v podstate sú preč z predaja. Ak vaša pracovná záťaž skutočne vyžaduje 8× H100 s NVLink, vaše reálne možnosti v máji 2026 sú: prenájom od hyperscalera alebo špecializovaného cloudu, nákup priamo od Dell / Lenovo / Supermicro s 12 – 20-týždňovým predstihom alebo spolupráca s integrátorom na tejto úrovni.
Nemáme skladom ani AMD Instinct MI300X ani MI325X – na papieri sú silné, čo sa týka pamäťovo viazanej inferencie (192 GB HBM3, 5.3 TB/s na MI300X), ale vyspelosť softvéru ROCm a dostupnosť kanálov v Českej republike nie sú pre nás v súčasnosti tou správnou zákazníckou základňou.
Kam analýza smeruje u typických kupujúcich
- Výskumné laboratórium, prvý inferenčný server: 4× RTX 5090 na EPYC Turin so 192 GB RAM, duálny ATX zdroj, 4U rackové šasi. Zvládne každý model až do 70B INT4 naprieč TP, priestor pre jemné doladenie.
- Inferencia o produkcii pre začínajúce spoločnosti: 4× Server Pro 6000 BW v rozvádzači 4U s hostiteľom EPYC Genoa/Turín, 384–512 GB RAM, zdroj CRPS s redundanciou 1+1. ECC, bezhlavý procesor, rezerva pre jednu kartu 70B+.
- Robotické laboratórium + lokálne výpočty: 4× Pro 6000 BW Server. 96 GB vám umožňuje hostiť Qwen2.5-VL 72B a LLM súčasne, ECC je dôležité, pretože inferenčný výstup riadi fyzický hardvér.
- Nákupy v oblasti podnikového obstarávania s cieľom zabezpečiť súlad s predpismi: 4× alebo 8× L40 v šasi Supermicro. Horší výkon/€, ale každý kusovník prechádza auditom.
- Pobočka, maloobchod, okraj: 4× alebo 8× L4 v 1U/2U. Kancelárske napájanie, žiadne špeciálne vykurovanie, vetranie a klimatizácia.
- Rozšírenie existujúcej flotily 4090: viac 4090, ak je rozpočet záväzný a viete ich nájsť; inak zmiešajte 5090 (vLLM zvláda TP zmiešanej generácie prijateľne; nekombinujte 4090 s Pro 6000 – rozdiel v šírke pásma ničí efekt najhoršej výhry karty).
Čo urobiť ďalej
Pred špecifikáciou grafických procesorov odpovedzte na týchto päť otázok:
- Uveďte všetky modely, ktoré potrebujete hostiť súbežne. Sčítajte stopy INT4. Pridajte 40 – 60 % pre vyrovnávaciu pamäť KV v cieľovej dávke a kontexte. To je vaša minimálna veľkosť VRAM, celková a na kartu.
- Uveďte cieľovú latenciu. Jednostreamová priepustnosť za sekundu pod 30 znamená, že môžete použiť takmer čokoľvek. Jednostreamová priepustnosť za sekundu nad 60 vás zužuje na 5090 alebo Pro 6000 BW. Hromadná priepustnosť za deň je iná metrika a mení odpoveď.
- Uveďte objemový výkon na stene. Jednofázový 16 A znamená maximálne 4 spotrebiteľské grafické karty. Trojfázový alebo 32 A znamená, že je k dispozícii 8 grafických kariet. Kancelársky 10 A obvod znamená iba L4 alebo Max-Q.
- Uveďte obmedzenie obstarávania. „Kupujeme iba podnikové SKU“ → L40 alebo Pro 6000 BW Server. „Kupujeme všetko, čo sa dodáva“ → 5090. Buďte k sebe úprimní; toto je obmedzenie, ktoré brzdí väčšinu zostavení v neskorších fázach procesu.
- Uveďte pracovný cyklus a životnosť. 24/7 po dobu troch rokov sa vyplácajú zdroje ECC a Platinum. Vývojársky stolový počítač nie.
Ak neviete odpovedať na všetkých päť otázok, žiadna z možností grafického procesora sa spätne nebude zdať správna. Ak áno, správna odpoveď z vyššie uvedenej tabuľky vypadne pri jednom zavolaní. Pozri W05 pre tepelnú a prúdiace vzduch, W06 pre úrovne úložiska a W01 pre pravidlá dimenzovania RAM na VRAM, ktoré sú základom výberu GPU.
Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na info@kentino.com.