Kentino sro
K-AI 256 TurinDual 5090 — 8× RTX 5090 Dual-Socket Zen5c Flagship (Vyžiadajte si cenovú ponuku na CPU)
K-AI 256 TurinDual 5090 — 8× RTX 5090 Dual-Socket Zen5c Flagship (Vyžiadajte si cenovú ponuku na CPU)
Nepodarilo sa načítať dostupnosť vyzdvihnutia
K-AI 256 TurínDvojitý 5090 13408TOPS
256 GB VRAM – vlajkový inferenčný server
8x RTX 5090 | Duálny EPYC Turín | 13 408 TOPS INT8
Cena CPU bola finalizovaná pri objednávke – trh s procesormi série Turin 9005 sa v 2. štvrťroku 2026 pohybuje každý týždeň.
Publikované externé referencie. Nemerané na hardvéri Kentino.
Vlajkový inferenčný server s výškou 7U pre montáž do racku s ôsmimi grafickými kartami GeForce RTX 5090 (32 GB GDDR7, Blackwell, natívna FP8) na dvojsocketovej platforme EPYC Turin (Zen5c, SP5) so 768 GB DDR5-4800 ECC na všetkých 12 kanáloch, 2 TB NVMe bootovaním a 5x 1200 W serverovým zdrojom. Komplexné rozhranie PCIe Gen5 na GPU prostredníctvom aktívnych rozširujúcich adaptérov pre časovač/rediver. Spúšťa vLLM, SGLang, llama.cpp, ComfyUI a všetky hlavné inferenčné stacky s otvorenou váhou ihneď po vybalení.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 8x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, natívna FP8, 1676 INT8 TOPS/karta) |
| fond VRAM | 256 GB pamäte spolu na 8 kartách (bez NVLink na spotrebiteľskej RTX 5090) |
| CPU | 2x AMD EPYC Turin radu 9005 (Zen5c, SP5, PCIe 5.0) — cenová ponuka čaká na vypracovanie objednávky |
| Základná doska | ASRock Rack TURIN2D24XGM/500W (duálny SP5, PCIe 5.0, 24x DDR5 DIMM) |
| Systémová RAM | 768 GB DDR5-4800 ECC RDIMM (12 x 64 GB — všetkých 12 kanálov je obsadených; 12 slotov zostáva pre škálovanie do 1.5 TB) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | 5x 1200 W serverový zdroj (kompatibilný s HP, agregát 6 kW) |
| Podvozok | 7U 8-GPU (až 10 slotov PCIe, samostatné pozície pre zdroje) |
| Chladenie | 2x vežové chladiče SP5 + prúdenie vzduchu spredu dozadu pre montáž do racku (priemyselné ventilátory) |
| stúpačky | 8x aktívnych PCIe Gen5 x16 (s prečasovačom/prebudovaním ovládača) — end-to-end Gen5 |
| sieť | Integrované 10 GbE (závisí od dosky) |
Napájacia obálka
- Spotreba grafického procesora: 8 x 575 W = 4 600 W
- Celkový výkon systému pri plnom zaťažení: ~5 520 W
- Celkový výkon zdroja: 6 000 W (5x 1 200 W) — 8 % rezervy pri špecifikácii
- Kentino sa dodáva s výkonovým stropom GPU na úrovni 500 W — celkový pokles na ~4 920 W (~15 % rezerva)
Topológia jazdných pruhov
Dual Turin poskytuje 2x 128 = 256 PCIe Gen5 liniek na strane hostiteľa. Aktívne rozširujúce karty Gen5 prenášajú Gen5 x16 na každej GPU – nie je potrebný žiadny PCIe prepínač (jeden CPU na banku so 4 kartami). Žiadne NVLink; P2P medzi GPU na Gen5 x16 (nominálne ~60 GB/s na linku).
Čo môžete spustiť
S 256 GB zdieľanej VRAM na 8 kartách Blackwell s natívnym FP8 sa tento server zameriava na Frontier 235-480B MoE v 4. štvrťroku s reálnym kontextom, rodinu DeepSeek V3 v 2. štvrťroku a Kimi-K2 1.58-bitové dynamické kvantové spracovanie s reálnou priepustnosťou.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-235B-A22B (Inštrukt / Myslenie / "2507") Q4 (~132 GB) s dlhým kontextom + dávkovanie pre viacerých používateľov (~25-40 tok/s jeden stream na 8x RTX 5090, publikovaná referencia)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — vlajková loď uvažovania/kódovania, 200k ctx na 4.6+
- GLM-5 / GLM-5.1 Q2 (~260 GB) s menším únikom RAM — hraničný kód blízky Claude Opus 4.6
- DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Special Q2 (~215 GB) pri užitočnej inferenčnej rýchlosti (~28 tok/s jeden stream na 8x Blackwell, publikovaná referencia)
- Kimi-K2 1.58-bitový UD-TQ1_0 (~240 GB) — agent s biliónovými parametrami a reálnou priepustnosťou tokenov (~7-10 tok/s jeden stream, publikovaná referencia)
- Hunyuan-Veľký 389B/52B MoE, 4. štvrťrok (~220 GB); ERNIE-4.5-424B-A47B 4. štvrťrok (~240 GB)
- Qwen3-Coder-480B-A35B Q4 (~270 GB obmedzené kvôli úniku RAM) — vlajková loď SOTA s otvoreným kódovaním
- MiniMax-M1 / Text-01 Q4 (~260 GB) 1M kontext; Qwen3.5-397B-A17B 4. štvrťrok (~214 GB)
Západná hranica
- Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB s únikom) – otvorené váhy na západnej hranici
- Flame 4 Maverick (400 miliárd/17 miliárd, 128 expertov) 4. štvrťrok (~232 GB) multimodálny
- Llama-3.1-Nemotron Ultra 253B Q4 (~119 GB) — zodpovedá DeepSeek-R1 pri polovičnej veľkosti
- gpt-oss-120b Natívna pamäť MXFP4 (80 GB) s dostatkom miesta pre viacero modelov
- Devstral 2 123B (Modifikovaný MIT) Q6 — najvyššie otvorené kódovanie, 256k ctx
- Lama 3.3 70B bf16 (~142 GB) viacnájomnícke service (~30-40 tok/s jeden stream na pár RTX 5090 TP2, publikovaná referencia)
Modely vizuálno-jazykového vnímania
Qwen3-VL-235B-A22B plná kapacita bf16 (~240 GB na karte); InternVL3.5-241B-A28B (~135 GB Q4); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB obmedzené); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V plná kapacita. Cesta Blackwell fp8 poskytuje ~2x priepustnosť pri inferencii Vision-Tower v porovnaní s Ada.
Generovanie obrazu
FLUX.1 [dev] / Kontext / Nástroje plná verzia bf16 (~10-18 s/obrázok pri fp8 na kartu, publikovaná referencia); SD 3.5 Large; HunyuanImage-2.1 (17B, natívne 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; farmy ComfyUI s viacerými pracovníkmi.
Generovanie videa
Wan 2.2 T2V-A14B / I2V-A14B duálny expert bf16 (súčasne vysokošumový aj nízkošumový rezidentný); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Reč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálnom čase); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro; Stable Audio Open; XTTS v2; Step-Audio-EditX
- V reálnom čase / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen; AudioGen; Kôra; SeamlessM4T v2
Poskytovanie viacerých modelov / viacerých nájomníkov
- Frontier-inference brána — 200B+ MoE + súbežných 70B + obraz + video, všetko rezidentné
- 8-cestná tenzorová paralelnosť pre Kimi-K2 / DeepSeek V3 v reálnom kontexte
- Viacnájomnícke LLM API — 50 – 100 súbežných používateľov na 235B Q4 cez vLLM/SGLang
- Súbežný plný pobyt na čínskej a západnej hranici na účely hodnotenia / porovnávania
Cieľové pracovné zaťaženia
- Frontier open-weight inference backend pre organizáciu so 100-500 členmi, kombinujúci Qwen3-235B, GLM-4.5+ a DeepSeek V3 Q2
- 1.58-bitová agentová platforma Kimi-K2 s produkčnou priepustnosťou (použitie nástrojov, viac ako 200 sekvenčných volaní)
- Full-fp8 DeepSeek V3 / R1 na kremíku Blackwell
- Viacuzlová tréningová hlava s Gen5 100 GbE / InfiniBand fabric
- Dvojrolová inferencia + difúzna farma (Qwen3-235B + FLUX.1 + HunyuanVideo 13B súbežne)
Publikované referencie výkonnosti
Externé referencie | Nemerané na hardvéri Kentino
| mierka | Výsledok |
|---|---|
| RTX 5090 na kartu INT8 TOPS | 1 676 TOPOV |
| Šírka pásma pamäte RTX 5090 | ~1 800 GB/s na kartu |
| vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (jedna) | ~90 tok/s |
| vLLM — Qwen3-235B Q4_K_M na 4x RTX 5090 (dávka-32) | ~450 tok/s agregát |
| SGLang — DeepSeek V3 Q2 na 8x Blackwell (jednoduchý) | ~28 tok/s |
| lama.cpp — Kimi-K2 UD-TQ1_0 na 8x Blackwell 256 GB | ~7-10 tok/s |
Kentino zverejní súbory vlastných zdrojov po prvej zákazníckej zostave s finálnou verziou Turin.
Nie ideálne pre
- Nasadenia s ohľadom na rozpočet (prémiové letisko Turín vs. alternatívy Janov alebo Rím)
- 70B husté pracovné zaťaženie pre jedného nájomcu (nadmerné – 4x RTX 5090 alebo 4x RTX Pro 6000 je tá správna úroveň)
- Frontier 600B+ v plnom kontexte za 4. štvrťrok+ (vyžaduje sa 576 GB+ pamäte – pozri 6x RTX Pro 6000)
- Dlhodobé školenie od začiatku (bez NVLink na spotrebiteľskej RTX 5090)
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- Škálovanie pamäte RAM na 1.5 TB DDR5 (24x 64 GB plná kapacita) – potrebné pre Kimi-K2 Q4 alebo DeepSeek V3 Q3 bez prebytku pamäte RAM
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Gen5 fabric pre klastrové uzly
- Mellanox ConnectX-6 25 GbE SFP28 pre dátové centrá
- 4 TB NVMe Gen4 x4 pre bootovanie + knižnica modelov
- Plná 24U racková skriňa s riadeným PDU
- Online UPS 8 – 10 kVA (kritické – špičkový odber 5.5 kW)
zdieľam
