Preskočiť na informácie o produkte
1 of 7

Kentino sro

K-AI 96 Rím 4090 2644TOPS — 4× RTX 4090 AI Inference Server

K-AI 96 Rím 4090 2644TOPS — 4× RTX 4090 AI Inference Server

Normálna cena EUR € 18.491,00
Normálna cena Zľavnená cena EUR € 18.491,00
ZĽAVA Vypredané
Vrátane daní. Doprava vypočítané pri pokladni.

K-AI 96 Rím 4090 2644TOPS

96 GB VRAM inferenčný server
4x RTX 4090 | EPYC Rím | 2 644 TOPS INT8

647
TFLOPS fp16
179
tok/s šarža-32
96 GB
fond VRAM
24/7
pripravené na použitie v racku

Merané na hardvéri Kentino. Llama 3.3 70B AWQ INT4 cez vLLM 0.19.0.

Rackový inferenčný server s výškou 4U, štyrmi grafickými kartami GeForce RTX 4090 spojenými s 96 GB VRAM, jedným procesorom AMD EPYC 7542 Rome (32C/64T), 256 GB pamäte DDR4 ECC, 2 TB NVMe bootovaním a duálnym synchronizovaným 2 kW ATX zdrojom. Spúšťa vLLM, SGLang, llama.cpp, ComfyUI a všetky hlavné open-weight inferenčné stacky ihneď po vybalení.

technické vybavenie

Zložka detail
GPU 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16)
fond VRAM Celkom 96 GB na 4 kartách
CPU AMD EPYC 7542 Rome (32C/64T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Uskladnenie 2 TB NVMe M.2 (PCIe 4.0 x4)
PSU Duálny 2 kW ATX so synchronizačným káblom
Podvozok Montáž do racku 4U, smerované prúdenie vzduchu spredu dozadu
Chladenie Vežový chladič SP3, 3x predný + 1x zadný 120 mm priemyselný ventilátor
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 4 x 450 W = 1 800 W
  • Celkový výkon systému: ~2 125 W
  • Celkový výkon zdroja: 4 000 W (duálny 2 kW) — 46.9 % rezervy
  • Rozdelené napájanie – porucha jedného zdroja = strata 2 grafických kariet alebo 2 grafických kariet + základnej dosky

Topológia jazdných pruhov

128 liniek PCIe Gen4 z EPYC do siedmich slotov x16; štyri obsadené grafickými kartami Gen4 x16. Žiadny prepínač PCIe. Žiadny NVLink – peer-to-peer s rýchlosťou 19 – 22 GB/s (merané Kentinom).

Čo môžete spustiť

S 96 GB zdieľanej VRAM na 4 kartách tento server zvláda otvorené LLM, modely videnia, generovanie obrázkov a videa, rečovú umelú inteligenciu a obsluhu viacerých klientov.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B pri 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
  • DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7 % AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
  • Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx duálne uvažovanie
  • Ostatné: Seed-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Step-3.5-Flash

Západná hranica

  • Meta lama: Llama 3.3 70B Q4_K_M (~20 tok/s lama.cpp, ~179 tok/s šarža-32 vLLM – namerané Kentinom); Lama 3.1 8B bf16 (~80-120 tok/s); Lama 4 Scout Q4
  • Mistral: Malá 3 24B bf16; Magistrálna Malá 24B uvažovanie; Devstral Malá 2 24B 256k ctx; Mixtral 8x7B Q6
  • OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (80 GB obmedzenej pamäte)
  • Ostatné: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Žula 4.0 H-Small; OLMo 2 32B; Reka Flash 3; Príkaz R 35B

Modely vizuálno-jazykového vnímania

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 až do 78B Q4; InternVL3.5-38B; DeepSeek-VL2; Lama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.

Generovanie obrazu

FLUX.1 [vývoj]/[rýchlo] fp8 (~15-25 s na 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 GB) 2K natívne; Kolors 2.0; AuraFlow; OmniGen v1.

Generovanie videa

Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-Video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

  • ASR: Whisper v3 turbo (~50x v reálnom čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 3.0; Kokoro 82M; Stabilný zvuk otvorený; Step-Audio-EditX
  • V reálnom čase: Kyutai Moshi (200 ms plný duplex); Step-Audio 2 mini; Qwen2.5-Omni-7B
  • Hudba: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Zobrazovanie viacerých modelov

  • 4-8 súbežných používateľov na 32-72B LLM cez vLLM / SGLang tenzorovo-paralelný
  • Zmiešané: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi s rozdelenou VRAM
  • Jemné doladenie LoRA/QLoRA 32-72B; plné parametre 7-14B
  • RAG s Command R+ alebo Qwen3 + BGE-M3/E5/Jina

Cieľové pracovné zaťaženia

  • Inferenčná brána pre organizáciu s 50 – 200 miestami (70 miliárd Q4 – Q6, 4 – 8 súbežných relácií)
  • Dávková difúzia/video kanál (SDXL + FLUX.1 + Wan 2.2 cez noc)
  • Laboratórium dolaďovania LoRA/QLoRA pre adaptácie domén 7-34B
  • Asistent dokumentov RAG (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
  • Zmiešaný single box: chat + obrázok + ASR + hlas v reálnom čase na rozdelenej VRAM

Meraný výkon

Bench Kentino | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T

mierka Výsledok
Trvalé výpočty (fp16) 647.7 TFLOPS
vLLM Llama 3.3 70B AWQ INT4 (single) 8.0 tok/s
vLLM Llama 3.3 70B AWQ INT4 (šarža-32) 179.3 tok/s agregát
lama.cpp Lama 3.3 70B Q4_K_M (single) 20.3 tok/s
Výzva na vyhodnotenie 1 568 tok/s
Šírka pásma pamäte GPU 920 GB/s na kartu
Čítanie/zápis NVMe 4 589 / 4 213 MB/s
Maximálne tepelné zaťaženie (spálenie GPU + CPU) 73 °C, pokles o 0.6 %

vLLM použil jadro awq — 2-3x možné s awq_marlin.

Nie ideálne pre

  • Hustota Frontier 100B+ pri bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — vyžadujú 256+ GB VRAM)
  • Školenie od začiatku (spotrebiteľská RTX 4090 nemá NVLink)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Rozšírte pamäť RAM na 512 GB (pridajte 4x 64 GB DDR4 — štyri voľné sloty DIMM)
  • 4 TB NVMe sekundárny disk pre dátovú sadu/modelovú prípravu
  • 24U otvorená skriňa pre nasadenie viacerých serverov
Zobraziť všetky podrobnosti