Kentino sro
K-AI 32 Rím 5090 1676TOPS — 1x pracovná stanica s umelou inteligenciou RTX 5090
K-AI 32 Rím 5090 1676TOPS — 1x pracovná stanica s umelou inteligenciou RTX 5090
Noudon saatavuutta ei voitu ladata
K-AI 32 Rím 5090 1676TOPS
Pracovná stanica Blackwell s jedným grafickým procesorom
1x RTX 5090 | EPYC Miláno | 1 676 TOPS INT8
Jedna grafická karta Blackwell, 32 GB GDDR7, natívna FP8 — najostrejšia pracovná stanica s umelou inteligenciou s jednou grafickou kartou, akú Kentino zostavuje.
Server s umelou inteligenciou na úrovni pracovnej stanice s jednou grafickou kartou a grafickou kartou na platforme ROMED8-2T / EPYC Milan. Jedna grafická karta RTX 5090 poskytuje 32 GB pamäte GDDR7 VRAM s natívnou tenzorovou matematikou FP8 – ideálne riešenie pre vývojárov, inferenčný koncový bod pre malé tímy alebo pracovnú stanicu na generovanie obrázkov/videa, kde jedna silná grafická karta poráža dve slabšie. Formát 4U rack, ale zároveň možnosť pripojenia pre tiché nasadenie pod stôl v kancelárii.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 1x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| fond VRAM | 32 GB |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Bootovanie / úložisko | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Jeden 2 kW ATX zdroj |
| Podvozok | 4U rackový riser, pasívny Gen4 x16 |
| Chladenie | Vežový chladič SP3 (trieda Arctic Freezer 4U-M), 3x 120 mm predné nasávanie + 1x 120 mm zadné odsávanie |
| sieť | Duálny integrovaný 10 GbE (Intel X550) + IPMI |
Napájacia obálka
- Spotreba grafického procesora: 1 x 575 W = 575 W
- Celkový výkon systému pri plnom zaťažení: ~900 W
- Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 55 % rezervy
- Veľkorysá prechodová rezerva, tichá prevádzka pri nízkom zaťažení
Topológia jazdných pruhov
PCIe Gen4 x16 na GPU (ROMED8-2T je Gen4; 5090 je kremík Gen5 s Gen4 bez zníženia šírky pásma pre inferenciu). 16 liniek priamo z koreňového komplexu CPU. Žiadny prepínač PCIe. Žiadny NVLink na GeForce 5090.
Čo môžete spustiť
Vďaka 32 GB pamäte GDDR7 VRAM a natívnej tenzorovej matematike FP8 táto pracovná stanica spracováva otvorené LLM s hustotou až 32B, generovanie obrázkov pomocou FLUX.1, generovanie videa, rečovú umelú inteligenciu a viacmodelové stacky s jedným vývojárom.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-32B hustý Q6_K — 32k kontext, vlajková loď všeobecných úvah (~40-55 tok/s jeden stream na Blackwell fp8, publikovaná referencia)
- Qwen3-30B-A3B MoE v Q4_K_M s dlhou KV rezervou (Qwen3-Coder-30B-A3B agentic, 256k ctx)
- QwQ-32B Otázka 6 – prehľad odôvodnenia
- DeepSeek-R2 32B riedke MoE v Q4-Q6 — uvažovanie o jednom GPU, ktoré dosahuje skóre 92.7 % AIME-2025 (~45-60 tok/s jeden stream na Blackwell FP8, publikovaná referencia)
- Qwen3.5-27B hustý Q6 (vydanie vo februári 2026)
- Hunyuan-A13B v Q4_K_M (~28-30 GB) — 80B/13B MoE, 256k ctx, duálne uvažovanie
- Seed-OSS-36B Q4_K_M — 512k natívny kontext pre analýzu dlhých dokumentov
Západná hranica
- Lama 3.3 70B v Q2_K (~27 GB málo) alebo Q3_K (~34 GB s prebytkom RAM) – použiteľné pre všeobecný chat
- Mistral Malý 3 / Magistral Malý / Devstral Malý 2 (hustota 24B) v Q6-Q8 alebo bf16
- Gemma 3 27B multimodálny v 6. štvrťroku so 128 000 kontextom
- Phi-4 14B / Úvaha Fí-4 bf16
- Reka Flash 3 (21B Apache 2.0) v bf16
- gpt-oss-20b natívny MXFP4 (~16 GB — zodpovedá štedrému KV)
Vízia-Jazyk
Qwen3-VL-8B / -32B v Q4-Q6; Qwen3-VL-30B-A3B MoE; InternVL3.5-8B / -38B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B); Llama 3.2 11B Vision bf16; Pixtral 12B bf16 (24 GB — tesný, použite Q8); Gemma 3 12B / 27B multimodálny; PaliGemma 2 (3/10B); Phi-4-multimodálny 5.6B; Aya Vision 8B.
Generovanie obrazu
FLUX.1 [dev] / [shnell] fp8 (~12 GB) natívne zrýchlenie Blackwella (~8-12 sekúnd na obrázok 1024x1024 pri 20 krokoch na Blackwelle, publikovaná referencia); FLUX.1 Kontext [dev] — úprava v kontexte, konzistencia znakov; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 10-12 GB fp16; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.
Generovanie videa
Wan 2.2 TI2V-5B pri ~16 GB — 720p@24fps na jednej 5090; Wan 2.1 T2V/I2V 14B pri Q4-Q6 (~16 GB); HunyuanVideo 1.5 (8.3B) — minimálne 14 GB; CogVideoX-5B / 5B-I2V int8 (~12 GB); LTX-Video 2B v reálnom čase 30 fps; Mochi-1 Q4 (~17-18 GB).
Zvuk / Reč / TTS
- ASR: Whisper v3 large / turbo (~50x reálny čas na jednej GPU, publikovaná referencia); NVIDIA Parakeet-TDT 1.1B; Canary 1B
- TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilný zvuk Otvorené
- V reálnom čase / S2S: Kyutai Moshi (7B) — iba otvorený hlas v reálnom čase s plným duplexom; Step-Audio 2 mini / R1
Viacmodelový / viacnájomný
- Rezidentný stack pre jedného vývojára: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB sa zmestí tesne) na swape alebo Qwen3-14B Q6 (~9 GB) + FLUX.1 + Whisper-turbo + Kokoro súčasne (~20-24 GB pripnutých)
- 2-4 súbežní používatelia na LLM triedy 14-32B cez vLLM / SGLang
- Jemné doladenie LoRA / QLoRA modelov s hustotou 7-14B
Cieľové pracovné zaťaženia
- Vývojárska pracovná stanica pre jedného inžiniera umelej inteligencie, ktorý spúšťa zmiešanú inferenciu a generovanie obrázkov
- Koncový bod kódovacieho agenta pre malé tímy (Qwen3-Coder-30B-A3B) s 1 – 4 súbežnými používateľmi
- Obsahový kanál: FLUX.1 alebo SD 3.5 Generovanie veľkých dávok obrázkov + krátke video Wan 2.2
- Lokálny hlasový zásobník ASR + TTS (Whisper + Kokoro + Moshi) pre pobočku
- Výskumný box Prosumer LLM + VLM — testovanie Qwen3, Llama 3.3, Gemma 3, Phi-4 na reálnom hardvéri
Publikované referencie výkonnosti
Publikovaná referencia | porovnateľný hardvér s jednou RTX 5090
| mierka | Výsledok |
|---|---|
| Lama 3.3 70B Q4_K_M dekódovanie lamy.cpp | ~18-22 tok/s s odľahčením CPU KV |
| Qwen3-32B Q6 vLLM jednoprúdový | ~45-55 tok/s dekódovanie pri fp8 |
| FLUX.1 [dev] fp8 na Blackwell | ~1.7 – 2.0 s na obrázok s rozlíšením 1024 x 1024 pri 20 krokoch |
| Klip Wan 2.2 TI2V-5B 720p | ~3-4 minúty pri fp16 |
Zverejnené referenčné body z porovnateľného hardvéru s jedným prvkom 5090. Namerané čísla od spoločnosti Kentino budú zverejnené, keď spoločnosť gf-logic rozšíri testovací systém na hardvér s jedným prvkom 5090.
Nie ideálne pre
- Modely s hustotou 70B v 6. štvrťroku+ (32 GB je nedostatočných – pre správny 64 GB pool použite 2x 5090)
- Súbežné poskytovanie viacerým používateľom vo veľkom meradle (jedna tenzorovo-paralelná partícia)
- Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 – mimo dosahu jednej spotrebiteľskej karty)
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Zvýšte kapacitu bootovacieho disku na 2 TB NVMe – alebo 4 TB
- Rozšírte RAM na 256 GB (4x 64 GB DDR4) pre väčšiu vyrovnávaciu pamäť KV / viacmodelové súbežné zásobníky
- Rack PDU (C13/C19 s meračom) a 2 kVA online UPS
zdieľam
