Preskočiť na informácie o produkte
1 of 7

Kentino sro

K-AI 256 TurinDual 5090 — 8× RTX 5090 Dual-Socket Zen5c Flagship (Vyžiadajte si cenovú ponuku na CPU)

K-AI 256 TurinDual 5090 — 8× RTX 5090 Dual-Socket Zen5c Flagship (Vyžiadajte si cenovú ponuku na CPU)

Normálna cena EUR € 0,00
Normálna cena Zľavnená cena EUR € 0,00
ZĽAVA Vypredané
Vrátane daní. Doprava vypočítané pri pokladni.

K-AI 256 TurínDvojitý 5090 13408TOPS

256 GB VRAM – vlajkový inferenčný server
8x RTX 5090 | Duálny EPYC Turín | 13 408 TOPS INT8

13 408
TOPS INT8
256 GB
fond VRAM
fp8
Rodák z Blackwellu
Gen5
PCIe end-to-end

Cena CPU bola finalizovaná pri objednávke – trh s procesormi série Turin 9005 sa v 2. štvrťroku 2026 pohybuje každý týždeň.

Publikované externé referencie. Nemerané na hardvéri Kentino.

Vlajkový inferenčný server s výškou 7U pre montáž do racku s ôsmimi grafickými kartami GeForce RTX 5090 (32 GB GDDR7, Blackwell, natívna FP8) na dvojsocketovej platforme EPYC Turin (Zen5c, SP5) so 768 GB DDR5-4800 ECC na všetkých 12 kanáloch, 2 TB NVMe bootovaním a 5x 1200 W serverovým zdrojom. Komplexné rozhranie PCIe Gen5 na GPU prostredníctvom aktívnych rozširujúcich adaptérov pre časovač/rediver. Spúšťa vLLM, SGLang, llama.cpp, ComfyUI a všetky hlavné inferenčné stacky s otvorenou váhou ihneď po vybalení.

technické vybavenie

Zložka detail
GPU 8x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, natívna FP8, 1676 INT8 TOPS/karta)
fond VRAM 256 GB pamäte spolu na 8 kartách (bez NVLink na spotrebiteľskej RTX 5090)
CPU 2x AMD EPYC Turin radu 9005 (Zen5c, SP5, PCIe 5.0) — cenová ponuka čaká na vypracovanie objednávky
Základná doska ASRock Rack TURIN2D24XGM/500W (duálny SP5, PCIe 5.0, 24x DDR5 DIMM)
Systémová RAM 768 GB DDR5-4800 ECC RDIMM (12 x 64 GB — všetkých 12 kanálov je obsadených; 12 slotov zostáva pre škálovanie do 1.5 TB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj 5x 1200 W serverový zdroj (kompatibilný s HP, agregát 6 kW)
Podvozok 7U 8-GPU (až 10 slotov PCIe, samostatné pozície pre zdroje)
Chladenie 2x vežové chladiče SP5 + prúdenie vzduchu spredu dozadu pre montáž do racku (priemyselné ventilátory)
stúpačky 8x aktívnych PCIe Gen5 x16 (s prečasovačom/prebudovaním ovládača) — end-to-end Gen5
sieť Integrované 10 GbE (závisí od dosky)

Napájacia obálka

  • Spotreba grafického procesora: 8 x 575 W = 4 600 W
  • Celkový výkon systému pri plnom zaťažení: ~5 520 W
  • Celkový výkon zdroja: 6 000 W (5x 1 200 W) — 8 % rezervy pri špecifikácii
  • Kentino sa dodáva s výkonovým stropom GPU na úrovni 500 W — celkový pokles na ~4 920 W (~15 % rezerva)

Topológia jazdných pruhov

Dual Turin poskytuje 2x 128 = 256 PCIe Gen5 liniek na strane hostiteľa. Aktívne rozširujúce karty Gen5 prenášajú Gen5 x16 na každej GPU – nie je potrebný žiadny PCIe prepínač (jeden CPU na banku so 4 kartami). Žiadne NVLink; P2P medzi GPU na Gen5 x16 (nominálne ~60 GB/s na linku).

Čo môžete spustiť

S 256 GB zdieľanej VRAM na 8 kartách Blackwell s natívnym FP8 sa tento server zameriava na Frontier 235-480B MoE v 4. štvrťroku s reálnym kontextom, rodinu DeepSeek V3 v 2. štvrťroku a Kimi-K2 1.58-bitové dynamické kvantové spracovanie s reálnou priepustnosťou.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3-235B-A22B (Inštrukt / Myslenie / "2507") Q4 (~132 GB) s dlhým kontextom + dávkovanie pre viacerých používateľov (~25-40 tok/s jeden stream na 8x RTX 5090, publikovaná referencia)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — vlajková loď uvažovania/kódovania, 200k ctx na 4.6+
  • GLM-5 / GLM-5.1 Q2 (~260 GB) s menším únikom RAM — hraničný kód blízky Claude Opus 4.6
  • DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Special Q2 (~215 GB) pri užitočnej inferenčnej rýchlosti (~28 tok/s jeden stream na 8x Blackwell, publikovaná referencia)
  • Kimi-K2 1.58-bitový UD-TQ1_0 (~240 GB) — agent s biliónovými parametrami a reálnou priepustnosťou tokenov (~7-10 tok/s jeden stream, publikovaná referencia)
  • Hunyuan-Veľký 389B/52B MoE, 4. štvrťrok (~220 GB); ERNIE-4.5-424B-A47B 4. štvrťrok (~240 GB)
  • Qwen3-Coder-480B-A35B Q4 (~270 GB obmedzené kvôli úniku RAM) — vlajková loď SOTA s otvoreným kódovaním
  • MiniMax-M1 / Text-01 Q4 (~260 GB) 1M kontext; Qwen3.5-397B-A17B 4. štvrťrok (~214 GB)

Západná hranica

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB s únikom) – otvorené váhy na západnej hranici
  • Flame 4 Maverick (400 miliárd/17 miliárd, 128 expertov) 4. štvrťrok (~232 GB) multimodálny
  • Llama-3.1-Nemotron Ultra 253B Q4 (~119 GB) — zodpovedá DeepSeek-R1 pri polovičnej veľkosti
  • gpt-oss-120b Natívna pamäť MXFP4 (80 GB) s dostatkom miesta pre viacero modelov
  • Devstral 2 123B (Modifikovaný MIT) Q6 — najvyššie otvorené kódovanie, 256k ctx
  • Lama 3.3 70B bf16 (~142 GB) viacnájomnícke service (~30-40 tok/s jeden stream na pár RTX 5090 TP2, publikovaná referencia)

Modely vizuálno-jazykového vnímania

Qwen3-VL-235B-A22B plná kapacita bf16 (~240 GB na karte); InternVL3.5-241B-A28B (~135 GB Q4); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB obmedzené); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V plná kapacita. Cesta Blackwell fp8 poskytuje ~2x priepustnosť pri inferencii Vision-Tower v porovnaní s Ada.

Generovanie obrazu

FLUX.1 [dev] / Kontext / Nástroje plná verzia bf16 (~10-18 s/obrázok pri fp8 na kartu, publikovaná referencia); SD 3.5 Large; HunyuanImage-2.1 (17B, natívne 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; farmy ComfyUI s viacerými pracovníkmi.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B duálny expert bf16 (súčasne vysokošumový aj nízkošumový rezidentný); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálnom čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro; Stable Audio Open; XTTS v2; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen; AudioGen; Kôra; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • Frontier-inference brána — 200B+ MoE + súbežných 70B + obraz + video, všetko rezidentné
  • 8-cestná tenzorová paralelnosť pre Kimi-K2 / DeepSeek V3 v reálnom kontexte
  • Viacnájomnícke LLM API — 50 – 100 súbežných používateľov na 235B Q4 cez vLLM/SGLang
  • Súbežný plný pobyt na čínskej a západnej hranici na účely hodnotenia / porovnávania

Cieľové pracovné zaťaženia

  • Frontier open-weight inference backend pre organizáciu so 100-500 členmi, kombinujúci Qwen3-235B, GLM-4.5+ a DeepSeek V3 Q2
  • 1.58-bitová agentová platforma Kimi-K2 s produkčnou priepustnosťou (použitie nástrojov, viac ako 200 sekvenčných volaní)
  • Full-fp8 DeepSeek V3 / R1 na kremíku Blackwell
  • Viacuzlová tréningová hlava s Gen5 100 GbE / InfiniBand fabric
  • Dvojrolová inferencia + difúzna farma (Qwen3-235B + FLUX.1 + HunyuanVideo 13B súbežne)

Publikované referencie výkonnosti

Externé referencie | Nemerané na hardvéri Kentino

mierka Výsledok
RTX 5090 na kartu INT8 TOPS 1 676 TOPOV
Šírka pásma pamäte RTX 5090 ~1 800 GB/s na kartu
vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (jedna) ~90 tok/s
vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (dávka-32) ~450 tok/s agregát
SGLang — DeepSeek V3 Q2 na 8x Blackwell (jednoduchý) ~28 tok/s
lama.cpp — Kimi-K2 UD-TQ1_0 na 8x Blackwell 256 GB ~7-10 tok/s

Kentino zverejní súbory vlastných zdrojov po prvej zákazníckej zostave s finálnou verziou Turin.

Nie ideálne pre

  • Nasadenia s ohľadom na rozpočet (prémiové letisko Turín vs. alternatívy Janov alebo Rím)
  • 70B husté pracovné zaťaženie pre jedného nájomcu (nadmerné – 4x RTX 5090 alebo 4x RTX Pro 6000 je tá správna úroveň)
  • Frontier 600B+ v plnom kontexte za 4. štvrťrok+ (vyžaduje sa 576 GB+ pamäte – pozri 6x RTX Pro 6000)
  • Dlhodobé školenie od začiatku (bez NVLink na spotrebiteľskej RTX 5090)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Škálovanie pamäte RAM na 1.5 TB DDR5 (24x 64 GB plná kapacita) – potrebné pre Kimi-K2 Q4 alebo DeepSeek V3 Q3 bez prebytku pamäte RAM
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Gen5 fabric pre klastrové uzly
  • Mellanox ConnectX-6 25 GbE SFP28 pre dátové centrá
  • 4 TB NVMe Gen4 x4 pre bootovanie + knižnica modelov
  • Plná 24U racková skriňa s riadeným PDU
  • Online UPS 8 – 10 kVA (kritické – špičkový odber 5.5 kW)
Zobraziť všetky podrobnosti