Kentino sro
K-AI 64 Rím 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI Server
K-AI 64 Rím 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI Server
Nepodarilo sa prečítať dostupnosť na vyzdvihnutie
K-AI 64 Rím 5090 3352TOPS
Základný server Blackwell s 2 GPU
2x RTX 5090 | EPYC Miláno | 3 352 TOPS INT8
Základný server Blackwell s 2 GPU — 64 GB zdieľanej VRAM, 3 352 INT8 TOPS, natívny fp8. Prechod z 2x4090 na Blackwell.
Dvoj-GPU server Blackwell s umelou inteligenciou postavený na platforme ROMED8-2T / EPYC Milan. Dve RTX 5090 poskytujú 64 GB združenej VRAM kapacity s natívnou tenzorovou matematikou FP8 – čo je zhruba dvojnásobok surového TOPS výkonu dvoch RTX 4090 v rovnakej veľkosti šasi a prvá úroveň s dvoma GPU, ktorá pohodlne spúšťa Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 a HunyuanVideo na bf16 / FP8 s dostatočnou rezervou.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 2x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| fond VRAM | 64 GB |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Bootovanie / úložisko | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Jeden 2 kW ATX zdroj |
| Podvozok | 4U rackové, pasívne rozširujúce risery Gen4 x16 |
| Chladenie | Vežový chladič SP3, 3x 120 mm predné nasávanie + 1x 120 mm zadné odsávanie (priemyselné ventilátory) |
| sieť | Duálny integrovaný 10 GbE (Intel X550) + IPMI |
Napájacia obálka
- Spotreba grafického procesora: 2 x 575 W = 1 150 W
- Celkový výkon systému pri plnom zaťažení: ~1 475 W
- Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 26.25 % rezervy
- Funkčná rezerva s jedným zdrojom; možnosť upgradu s dvoma zdrojmi pre väčší priestor
Topológia jazdných pruhov
ROMED8-2T rozširuje 2x16 Gen4 z koreňového komplexu CPU. 5090 je kremík Gen5 s Gen4 x16 bez zníženia šírky pásma pre inferenciu. Žiadny prepínač PCIe. Žiadny NVLink na GeForce 5090 – tenzorovo paralelný 2-cestný P2P využíva PCIe.
Čo môžete spustiť
Vďaka 64 GB zdieľanej pamäte GDDR7 VRAM na 2 kartách Blackwell tento server zvláda 70B Q4 tenzorovo paralelný spracovanie, vlajkové lode MoE, natívne generovanie obrázkov FP8, video AI a súbežné poskytovanie viacerých modelov.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-32B Q8 / bf16 (kvalita blízka FP16) (~40-55 tok/s jeden prúd na Blackwell FP8, publikovaná referencia)
- QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (zmestí sa ~60 GB)
- Qwen3.5-122B-A10B 4. štvrťrok (~70 – 75 GB s únikom RAM) – vlajková loď MoE v 4. štvrťroku sa hodí
- Hunyuan-A13B fp8 (~80 GB málo) alebo Q6 (~36 GB pohodlne)
- Seed-OSS-36B bf16 (~72 GB málo — uprednostňujem fp8 ~36 GB)
- DeepSeek-R2 32B riedke MoE bf16
- GLM-4.5-Air 106B/12B Q4_K_M (~60 GB) — MoE s rezervou
- ERNIE-4.5-47B-A3B Q6-Q8
Západná hranica
- Lama 3.3 70B Q4_K_M (~43 GB) — hlavné pracovné zaťaženie pre túto úroveň (~20 – 28 tok/s jeden stream na 2x 5090, publikovaná referencia)
- Hermes 3 70B / Tulu 3 70B Q4 – otvorené deriváty Llama po tréningu
- Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16; Mixtral 8x7B bf16
- Gemma 3 27B multimodálny bf16 + priestor na uvažovanie
- Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 GB) + gpt-oss-120b MXFP4 (80 GB — tesne pasuje s krátkym ctx)
- OLMo 2 32B / OLMo 3.1-32B-Mysli bf16
Vízia-Jazyk
Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16; InternVL3.5-38B bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Pixtral Large 124B Q3 (približne 58 GB); Gemma 3 27B multimodálny bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB).
Generovanie obrazu
5090 natívny fp8 je príbeh o rýchlosti — FLUX.1 / SD 3.5 / HunyuanImage bežia podstatne rýchlejšie ako na Ada: FLUX.1 [dev] / [schnell] fp8 natívny (~12 GB) s 2x paralelným snímaním naprieč kartami (~8-12 sekúnd na obrázok 1024x1024 na Blackwell, publikovaná referencia); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16 alebo 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB); HunyuanImage-3.0 NF4; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Generovanie videa
Wan 2.2 T2V-A14B / I2V-A14B bf16 (celkom ~54 GB) — MoE dva experty s plnou presnosťou; Wan 2.2 TI2V-5B bf16 na kartu, 2 paralelní nájomníci; HunyuanVideo 13B Q4-Q5 (~30 GB), tesný fp8; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB miesta); LTX-Video 2B; NVIDIA Cosmos Predict 2.
Zvuk / Reč / TTS
Rovnaký kompletný čínsky + západný rečový zásobník ako v úrovni 4090 s väčším priestorom pre hlas: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. Na 5090 s natívnym procesorom FP8 dekódujú Whisper / Parakeet s podstatne vyšším faktorom reálneho času. Whisper v3 turbo beží na Blackwelle rýchlosťou ~75x reálneho času (publikovaná referencia).
Viacmodelový / viacnájomný
- Rezidentný stack: Llama 3.3 70B Q4 (~43 GB tenzorovo-paralelný 2-cestný) + FLUX.1 fp8 (~12 GB) + Whisper-turbo + Moshi
- 2-4 súčasní nájomníci v triede 32B v 6. až 8. štvrťroku na kartu
- Jemné doladenie LoRA / QLoRA 7-14B pohodlné, 24-32B tesné
Cieľové pracovné zaťaženia
- Výkonná pracovná stanica pre vývojárov v malom tíme s kapacitou 70 TB pre Q4
- Blackwell vylepšenie z boxu s 2x RTX 4090 – rovnaké šasi, ~2.5x TOPS, natívny FP8
- Pracovná stanica na generovanie obrázkov/videa s natívnym zrýchlením FLUX FP8
- Viacmodelový súbežný box: 70B Q4 + FLUX + Whisper + Moshi súčasne
- Koncový bod inferencie 4-8 súbežných používateľov pre LLM triedy 32B
Publikované referencie výkonnosti
Publikovaná referencia | 2x porovnateľný hardvér s RTX 5090
| mierka | Výsledok |
|---|---|
| Lama 3.3 70B Q4_K_M dekódovanie lamy.cpp | ~20-28 tok/s jeden prúd |
| Qwen3-32B Q8 vLLM jednoprúdový | ~45-60 tok/s dekódovanie pri fp8 |
| FLUX.1 [dev] fp8 natívny Blackwell | ~1.5 – 1.9 s na 1024 x 1024 pri 20 krokoch |
| HunyuanVideo 13B Q5 TP-2 | 5 s 720p za ~5-7 min |
Publikované, nemerané na hardvéri Kentino. Kentino nameralo referenčný výkon na 4x RTX 4090: 647 TFLOPS fp16, 179 tok/s batch-32 aggregate.
Nie ideálne pre
- Modely s hustotou pamäte viac ako 100B na začiatku 16. ročníka (DeepSeek-V3, Kimi K2, Mistral Large 3 — potrebujú viac ako 256 GB priestoru)
- Generovanie dlhého videa Frontier v plnom rozlíšení v bf16
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Zvýšte kapacitu bootovacieho disku na 2 TB NVMe – alebo 4 TB
- Rozšírenie pamäte RAM na 256 GB (4x 64 GB) — MoE KV cache headroom / multimodelové súbežné poskytovanie
- Rack PDU (C13/C19 s meračom) a 3 kVA online UPS
zdieľam
