Siirry tuotetietoihin
1 / 14

Kentino sro

K-AI 32 Rím 5090 1676TOPS — 1x pracovná stanica s umelou inteligenciou RTX 5090

K-AI 32 Rím 5090 1676TOPS — 1x pracovná stanica s umelou inteligenciou RTX 5090

Normálna cena EUR € 8.092,00
Normálna cena Zľavnená cena EUR € 8.092,00
Alennusmyynti loppuunmyyty
Sisältää verot. Toimituskulut lasketaan kassalla.

K-AI 32 Rím 5090 1676TOPS

Pracovná stanica Blackwell s jedným grafickým procesorom
1x RTX 5090 | EPYC Miláno | 1 676 TOPS INT8

1 676
TOPS INT8
32 GB
VRAM GDDR7
fp8
natívny tenzor
stojan
pripravený

Jedna grafická karta Blackwell, 32 GB GDDR7, natívna FP8 — najostrejšia pracovná stanica s umelou inteligenciou s jednou grafickou kartou, akú Kentino zostavuje.

Server s umelou inteligenciou na úrovni pracovnej stanice s jednou grafickou kartou a grafickou kartou na platforme ROMED8-2T / EPYC Milan. Jedna grafická karta RTX 5090 poskytuje 32 GB pamäte GDDR7 VRAM s natívnou tenzorovou matematikou FP8 – ideálne riešenie pre vývojárov, inferenčný koncový bod pre malé tímy alebo pracovnú stanicu na generovanie obrázkov/videa, kde jedna silná grafická karta poráža dve slabšie. Formát 4U rack, ale zároveň možnosť pripojenia pre tiché nasadenie pod stôl v kancelárii.

technické vybavenie

Zložka detail
GPU 1x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
fond VRAM 32 GB
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Bootovanie / úložisko 1 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj Jeden 2 kW ATX zdroj
Podvozok 4U rackový riser, pasívny Gen4 x16
Chladenie Vežový chladič SP3 (trieda Arctic Freezer 4U-M), 3x 120 mm predné nasávanie + 1x 120 mm zadné odsávanie
sieť Duálny integrovaný 10 GbE (Intel X550) + IPMI

Napájacia obálka

  • Spotreba grafického procesora: 1 x 575 W = 575 W
  • Celkový výkon systému pri plnom zaťažení: ~900 W
  • Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 55 % rezervy
  • Veľkorysá prechodová rezerva, tichá prevádzka pri nízkom zaťažení

Topológia jazdných pruhov

PCIe Gen4 x16 na GPU (ROMED8-2T je Gen4; 5090 je kremík Gen5 s Gen4 bez zníženia šírky pásma pre inferenciu). 16 liniek priamo z koreňového komplexu CPU. Žiadny prepínač PCIe. Žiadny NVLink na GeForce 5090.

Čo môžete spustiť

Vďaka 32 GB pamäte GDDR7 VRAM a natívnej tenzorovej matematike FP8 táto pracovná stanica spracováva otvorené LLM s hustotou až 32B, generovanie obrázkov pomocou FLUX.1, generovanie videa, rečovú umelú inteligenciu a viacmodelové stacky s jedným vývojárom.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3-32B hustý Q6_K — 32k kontext, vlajková loď všeobecných úvah (~40-55 tok/s jeden stream na Blackwell fp8, publikovaná referencia)
  • Qwen3-30B-A3B MoE v Q4_K_M s dlhou KV rezervou (Qwen3-Coder-30B-A3B agentic, 256k ctx)
  • QwQ-32B Otázka 6 – prehľad odôvodnenia
  • DeepSeek-R2 32B riedke MoE v Q4-Q6 — uvažovanie o jednom GPU, ktoré dosahuje skóre 92.7 % AIME-2025 (~45-60 tok/s jeden stream na Blackwell FP8, publikovaná referencia)
  • Qwen3.5-27B hustý Q6 (vydanie vo februári 2026)
  • Hunyuan-A13B v Q4_K_M (~28-30 GB) — 80B/13B MoE, 256k ctx, duálne uvažovanie
  • Seed-OSS-36B Q4_K_M — 512k natívny kontext pre analýzu dlhých dokumentov

Západná hranica

  • Lama 3.3 70B v Q2_K (~27 GB málo) alebo Q3_K (~34 GB s prebytkom RAM) – použiteľné pre všeobecný chat
  • Mistral Malý 3 / Magistral Malý / Devstral Malý 2 (hustota 24B) v Q6-Q8 alebo bf16
  • Gemma 3 27B multimodálny v 6. štvrťroku so 128 000 kontextom
  • Phi-4 14B / Úvaha Fí-4 bf16
  • Reka Flash 3 (21B Apache 2.0) v bf16
  • gpt-oss-20b natívny MXFP4 (~16 GB — zodpovedá štedrému KV)

Vízia-Jazyk

Qwen3-VL-8B / -32B v Q4-Q6; Qwen3-VL-30B-A3B MoE; InternVL3.5-8B / -38B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B); Llama 3.2 11B Vision bf16; Pixtral 12B bf16 (24 GB — tesný, použite Q8); Gemma 3 12B / 27B multimodálny; PaliGemma 2 (3/10B); Phi-4-multimodálny 5.6B; Aya Vision 8B.

Generovanie obrazu

FLUX.1 [dev] / [shnell] fp8 (~12 GB) natívne zrýchlenie Blackwella (~8-12 sekúnd na obrázok 1024x1024 pri 20 krokoch na Blackwelle, publikovaná referencia); FLUX.1 Kontext [dev] — úprava v kontexte, konzistencia znakov; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 10-12 GB fp16; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.

Generovanie videa

Wan 2.2 TI2V-5B pri ~16 GB — 720p@24fps na jednej 5090; Wan 2.1 T2V/I2V 14B pri Q4-Q6 (~16 GB); HunyuanVideo 1.5 (8.3B) — minimálne 14 GB; CogVideoX-5B / 5B-I2V int8 (~12 GB); LTX-Video 2B v reálnom čase 30 fps; Mochi-1 Q4 (~17-18 GB).

Zvuk / Reč / TTS

  • ASR: Whisper v3 large / turbo (~50x reálny čas na jednej GPU, publikovaná referencia); NVIDIA Parakeet-TDT 1.1B; Canary 1B
  • TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilný zvuk Otvorené
  • V reálnom čase / S2S: Kyutai Moshi (7B) — iba otvorený hlas v reálnom čase s plným duplexom; Step-Audio 2 mini / R1

Viacmodelový / viacnájomný

  • Rezidentný stack pre jedného vývojára: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB sa zmestí tesne) na swape alebo Qwen3-14B Q6 (~9 GB) + FLUX.1 + Whisper-turbo + Kokoro súčasne (~20-24 GB pripnutých)
  • 2-4 súbežní používatelia na LLM triedy 14-32B cez vLLM / SGLang
  • Jemné doladenie LoRA / QLoRA modelov s hustotou 7-14B

Cieľové pracovné zaťaženia

  • Vývojárska pracovná stanica pre jedného inžiniera umelej inteligencie, ktorý spúšťa zmiešanú inferenciu a generovanie obrázkov
  • Koncový bod kódovacieho agenta pre malé tímy (Qwen3-Coder-30B-A3B) s 1 – 4 súbežnými používateľmi
  • Obsahový kanál: FLUX.1 alebo SD 3.5 Generovanie veľkých dávok obrázkov + krátke video Wan 2.2
  • Lokálny hlasový zásobník ASR + TTS (Whisper + Kokoro + Moshi) pre pobočku
  • Výskumný box Prosumer LLM + VLM — testovanie Qwen3, Llama 3.3, Gemma 3, Phi-4 na reálnom hardvéri

Publikované referencie výkonnosti

Publikovaná referencia | porovnateľný hardvér s jednou RTX 5090

mierka Výsledok
Lama 3.3 70B Q4_K_M dekódovanie lamy.cpp ~18-22 tok/s s odľahčením CPU KV
Qwen3-32B Q6 vLLM jednoprúdový ~45-55 tok/s dekódovanie pri fp8
FLUX.1 [dev] fp8 na Blackwell ~1.7 – 2.0 s na obrázok s rozlíšením 1024 x 1024 pri 20 krokoch
Klip Wan 2.2 TI2V-5B 720p ~3-4 minúty pri fp16

Zverejnené referenčné body z porovnateľného hardvéru s jedným prvkom 5090. Namerané čísla od spoločnosti Kentino budú zverejnené, keď spoločnosť gf-logic rozšíri testovací systém na hardvér s jedným prvkom 5090.

Nie ideálne pre

  • Modely s hustotou 70B v 6. štvrťroku+ (32 GB je nedostatočných – pre správny 64 GB pool použite 2x 5090)
  • Súbežné poskytovanie viacerým používateľom vo veľkom meradle (jedna tenzorovo-paralelná partícia)
  • Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 – mimo dosahu jednej spotrebiteľskej karty)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Zvýšte kapacitu bootovacieho disku na 2 TB NVMe – alebo 4 TB
  • Rozšírte RAM na 256 GB (4x 64 GB DDR4) pre väčšiu vyrovnávaciu pamäť KV / viacmodelové súbežné zásobníky
  • Rack PDU (C13/C19 s meračom) a 2 kVA online UPS
Näytä kaikki tiedot