Prejsť na informácie o produkte
1 z 14

Kentino sro

K-AI 64 Rím 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI Server

K-AI 64 Rím 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI Server

Normálna cena EUR € 11.653,00
Normálna cena Cena po zľave EUR € 11.653,00
Zľava Vypredané
Vratane dani. Doprava sa vypočíta pri platbe.

K-AI 64 Rím 5090 3352TOPS

Základný server Blackwell s 2 GPU
2x RTX 5090 | EPYC Miláno | 3 352 TOPS INT8

3 352
TOPS INT8
64 GB
VRAM GDDR7
fp8
natívny tenzor
stojan
pripravený

Základný server Blackwell s 2 GPU — 64 GB zdieľanej VRAM, 3 352 INT8 TOPS, natívny fp8. Prechod z 2x4090 na Blackwell.

Dvoj-GPU server Blackwell s umelou inteligenciou postavený na platforme ROMED8-2T / EPYC Milan. Dve RTX 5090 poskytujú 64 GB združenej VRAM kapacity s natívnou tenzorovou matematikou FP8 – čo je zhruba dvojnásobok surového TOPS výkonu dvoch RTX 4090 v rovnakej veľkosti šasi a prvá úroveň s dvoma GPU, ktorá pohodlne spúšťa Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 a HunyuanVideo na bf16 / FP8 s dostatočnou rezervou.

technické vybavenie

Zložka detail
GPU 2x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
fond VRAM 64 GB
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Bootovanie / úložisko 1 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj Jeden 2 kW ATX zdroj
Podvozok 4U rackové, pasívne rozširujúce risery Gen4 x16
Chladenie Vežový chladič SP3, 3x 120 mm predné nasávanie + 1x 120 mm zadné odsávanie (priemyselné ventilátory)
sieť Duálny integrovaný 10 GbE (Intel X550) + IPMI

Napájacia obálka

  • Spotreba grafického procesora: 2 x 575 W = 1 150 W
  • Celkový výkon systému pri plnom zaťažení: ~1 475 W
  • Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 26.25 % rezervy
  • Funkčná rezerva s jedným zdrojom; možnosť upgradu s dvoma zdrojmi pre väčší priestor

Topológia jazdných pruhov

ROMED8-2T rozširuje 2x16 Gen4 z koreňového komplexu CPU. 5090 je kremík Gen5 s Gen4 x16 bez zníženia šírky pásma pre inferenciu. Žiadny prepínač PCIe. Žiadny NVLink na GeForce 5090 – tenzorovo paralelný 2-cestný P2P využíva PCIe.

Čo môžete spustiť

Vďaka 64 GB zdieľanej pamäte GDDR7 VRAM na 2 kartách Blackwell tento server zvláda 70B Q4 tenzorovo paralelný spracovanie, vlajkové lode MoE, natívne generovanie obrázkov FP8, video AI a súbežné poskytovanie viacerých modelov.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3-32B Q8 / bf16 (kvalita blízka FP16) (~40-55 tok/s jeden prúd na Blackwell FP8, publikovaná referencia)
  • QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (zmestí sa ~60 GB)
  • Qwen3.5-122B-A10B 4. štvrťrok (~70 – 75 GB s únikom RAM) – vlajková loď MoE v 4. štvrťroku sa hodí
  • Hunyuan-A13B fp8 (~80 GB málo) alebo Q6 (~36 GB pohodlne)
  • Seed-OSS-36B bf16 (~72 GB málo — uprednostňujem fp8 ~36 GB)
  • DeepSeek-R2 32B riedke MoE bf16
  • GLM-4.5-Air 106B/12B Q4_K_M (~60 GB) — MoE s rezervou
  • ERNIE-4.5-47B-A3B Q6-Q8

Západná hranica

  • Lama 3.3 70B Q4_K_M (~43 GB) — hlavné pracovné zaťaženie pre túto úroveň (~20 – 28 tok/s jeden stream na 2x 5090, publikovaná referencia)
  • Hermes 3 70B / Tulu 3 70B Q4 – otvorené deriváty Llama po tréningu
  • Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16; Mixtral 8x7B bf16
  • Gemma 3 27B multimodálny bf16 + priestor na uvažovanie
  • Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 GB) + gpt-oss-120b MXFP4 (80 GB — tesne pasuje s krátkym ctx)
  • OLMo 2 32B / OLMo 3.1-32B-Mysli bf16

Vízia-Jazyk

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16; InternVL3.5-38B bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Pixtral Large 124B Q3 ​​(približne 58 GB); Gemma 3 27B multimodálny bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB).

Generovanie obrazu

5090 natívny fp8 je príbeh o rýchlosti — FLUX.1 / SD 3.5 / HunyuanImage bežia podstatne rýchlejšie ako na Ada: FLUX.1 [dev] / [schnell] fp8 natívny (~12 GB) s 2x paralelným snímaním naprieč kartami (~8-12 sekúnd na obrázok 1024x1024 na Blackwell, publikovaná referencia); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16 alebo 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB); HunyuanImage-3.0 NF4; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B bf16 (celkom ~54 GB) — MoE dva experty s plnou presnosťou; Wan 2.2 TI2V-5B bf16 na kartu, 2 paralelní nájomníci; HunyuanVideo 13B Q4-Q5 (~30 GB), tesný fp8; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB miesta); LTX-Video 2B; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

Rovnaký kompletný čínsky + západný rečový zásobník ako v úrovni 4090 s väčším priestorom pre hlas: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. Na 5090 s natívnym procesorom FP8 dekódujú Whisper / Parakeet s podstatne vyšším faktorom reálneho času. Whisper v3 turbo beží na Blackwelle rýchlosťou ~75x reálneho času (publikovaná referencia).

Viacmodelový / viacnájomný

  • Rezidentný stack: Llama 3.3 70B Q4 (~43 GB tenzorovo-paralelný 2-cestný) + FLUX.1 fp8 (~12 GB) + Whisper-turbo + Moshi
  • 2-4 súčasní nájomníci v triede 32B v 6. až 8. štvrťroku na kartu
  • Jemné doladenie LoRA / QLoRA 7-14B pohodlné, 24-32B tesné

Cieľové pracovné zaťaženia

  • Výkonná pracovná stanica pre vývojárov v malom tíme s kapacitou 70 TB pre Q4
  • Blackwell vylepšenie z boxu s 2x RTX 4090 – rovnaké šasi, ~2.5x TOPS, natívny FP8
  • Pracovná stanica na generovanie obrázkov/videa s natívnym zrýchlením FLUX FP8
  • Viacmodelový súbežný box: 70B Q4 + FLUX + Whisper + Moshi súčasne
  • Koncový bod inferencie 4-8 súbežných používateľov pre LLM triedy 32B

Publikované referencie výkonnosti

Publikovaná referencia | 2x porovnateľný hardvér s RTX 5090

mierka Výsledok
Lama 3.3 70B Q4_K_M dekódovanie lamy.cpp ~20-28 tok/s jeden prúd
Qwen3-32B Q8 vLLM jednoprúdový ~45-60 tok/s dekódovanie pri fp8
FLUX.1 [dev] fp8 natívny Blackwell ~1.5 – 1.9 s na 1024 x 1024 pri 20 krokoch
HunyuanVideo 13B Q5 TP-2 5 s 720p za ~5-7 min

Publikované, nemerané na hardvéri Kentino. Kentino nameralo referenčný výkon na 4x RTX 4090: 647 TFLOPS fp16, 179 tok/s batch-32 aggregate.

Nie ideálne pre

  • Modely s hustotou pamäte viac ako 100B na začiatku 16. ročníka (DeepSeek-V3, Kimi K2, Mistral Large 3 — potrebujú viac ako 256 GB priestoru)
  • Generovanie dlhého videa Frontier v plnom rozlíšení v bf16

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Zvýšte kapacitu bootovacieho disku na 2 TB NVMe – alebo 4 TB
  • Rozšírenie pamäte RAM na 256 GB (4x 64 GB) — MoE KV cache headroom / multimodelové súbežné poskytovanie
  • Rack PDU (C13/C19 s meračom) a 3 kVA online UPS
Zobraziť všetky podrobnosti