Preskočiť na informácie o produkte
1 of 7

Kentino sro

K-AI 768 TurinDuálny RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duálny Turin)

K-AI 768 TurinDuálny RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duálny Turin)

Normálna cena EUR € 0,00
Normálna cena Zľavnená cena EUR € 0,00
ZĽAVA Vypredané
Vrátane daní. Doprava vypočítané pri pokladni.

K-AI 768 TurinDual RTXPro6000MQ 16000TOPS

768 GB ECC VRAM Frontier Flagship
8x RTX Pro 6000 Max-Q | Dual EPYC Turin | 16 000 TOPS INT8

16 000
TOPS INT8
768 GB
fond ECC VRAM
Gen5
PCIe end-to-end
vlajková loď
hraničný multi-nájomca

Cena CPU bola finalizovaná pri objednávke – trh s procesormi série Turin 9005 sa v 2. štvrťroku 2026 pohybuje každý týždeň.

Publikované externé referencie. Nemerané na hardvéri Kentino.

Špičkový model zo série serverov Kentino s umelou inteligenciou. Vlajková loď inferenčnej platformy Frontier pre 7U rackové použitie s ôsmimi grafickými kartami NVIDIA RTX Pro 6000 Blackwell Max-Q s turboventilátorom, ktoré sú obsadené 768 GB ECC VRAM, dvoma procesormi AMD EPYC Turin radu 9005 (Zen5c, SP5), 1.5 TB pamäte DDR5-4800 ECC (všetkých 24 kanálov je obsadených), 4 TB NVMe bootovacou pamäťou a 5x 1200 W serverovým zdrojom. Komplexné rozhranie PCIe Gen5. Natívny DeepSeek V3 fp8 (~670 GB) na karte. Kimi-K2 Q4-Q5. Súčasne inštalované 4 modely Frontier triedy.

technické vybavenie

Zložka detail
GPU 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turboventilátor, špecifikácia TDP 600 W, PCIe 5.0 x16, 2000 INT8 TOPS/karta, natívna FP8)
fond VRAM Celkovo 768 GB na 8 kartách (bez NVLink — P2P cez PCIe Gen5 s rýchlosťou ~55-60 GB/s v rámci socketu, medzi socketmi cez prepojenie CPU)
CPU 2x AMD EPYC Turin radu 9005 (Zen5c, SP5, PCIe 5.0) — cenová ponuka čaká na vypracovanie, presný kód SKU potvrdený pri objednávke
Základná doska ASRock Rack TURIN2D24XGM/500W (duálny SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI)
Systémová RAM 1.5 TB DDR5-4800 ECC RDIMM (24x 64 GB — všetkých 24 kanálov je obsadených, celkovo ~920 GB/s)
Bootovanie / úložisko 4 TB NVMe M.2 (PCIe 4.0 x4) – dimenzované pre hraničné kontrolné stanovištia
Zdroj 5x 1200 W serverový zdroj (spolu 6 kW)
Podvozok 7U rackový systém s 8 GPU, kapacita 10 slotov PCIe, aktívne rozširujúce karty Gen5
Chladenie 2x vežové chladiče SP5 Turin + 8x 120 mm ventilátory Martech pre šasi. Samostatné turboventilátory pre každú grafickú kartu.
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba GPU (špecifikácia): 8 x 600 W = 4 800 W
  • Spotreba CPU: 2 x 360 W = 720 W (odhad pre strednú úroveň Turína)
  • Celkový výkon systému pri plnom zaťažení: ~5 720 W
  • Celkový výkon zdroja: 6 000 W — ~4.7 % hrubej rezervy pri špecifikácii
  • Reálny svet: Max-Q udrží 520-550 W v inferencii, čím sa zvýši trvalý výkon na ~20%+
  • Firmvérový limit výkonu 520 W je k dispozícii pre zaručenú rezervu

Topológia jazdných pruhov

Dual Turin poskytuje 2x 128 liniek PCIe Gen5. TURIN2D24XGM/500W smeruje 8 slotov GPU priamo pripojených k CPU na Gen5 x16 cez aktívne rozširujúce karty – 4 sloty na koreň CPU. Žiadny prepínač PCIe v ceste GPU – čistá topológia duálneho koreňa. Pre optimálne peer-to-peer pripojenie medzi socketmi je potrebné ladenie NUMA. Žiadne NVLink; P2P rýchlosťou ~55-60 GB/s na smer v rámci socketu.

Čo môžete spustiť

So 768 GB združenej ECC VRAM – vrcholom Kentino balíka – tento server beží na karte DeepSeek V3 fp8 natívne (~670 GB), komfortne spúšťa Kimi-K2 Q4-Q5 (~630 GB) a predstavuje definujúci prípad použitia: 4 modely hraničnej triedy pracujúce súčasne pre produkčné služby s viacerými nájomníkmi.

LLM – text / uvažovanie / kódovanie

Čínska hranica v kvantitatívnej produkcii

  • Kimi-K2 (Základňa / Inštruktáž / Myslenie) pri Q4_K_M / Q5_K_M (~630 GB) pohodlne (~15-25 tok/s single, publikovaná referencia) — vlajková loď čínskej hranice na jednom boxe pri produkčných množstvách
  • DeepSeek V3 / R1 / V3.1 / V3.2 pri natívnej rýchlosti FP8 (~670 GB) na karte (~30-50 taktov/s samostatne, publikovaná referencia) — tenzorové jadrá Blackwell FP8 to natívne spúšťajú rýchlosťou
  • DeepSeek V3 v Q4_K_M (~404 GB) s viacerými súbežnými inštanciami poskytovanými vo veľkých dávkach
  • GLM-5 / GLM-5.1 (~745B/44B) v 3. – 4. štvrťroku (~420 – 560 GB) pohodlná kapacita na karte
  • Intern-S1-Pro (1T/22B aktívny, SAGE) v 3. – 4. štvrťroku (~440 – 580 GB) pohodlne
  • Qwen3-Coder-480B-A35B v 5. – 6. štvrťroku (~340 – 400 GB) s 1 miliónom ctx
  • Qwen3-235B-A22B pri bf16 (~470 GB) s veľkorysým KV pre dlhý kontext
  • ERNIE-4.5-424B-A47B v 6. štvrťroku (~360 GB); Hunyuan-Veľký pri 8. frameworku (~390 GB)
  • MiniMax-Text-01 / M1 v 5. – 6. štvrťroku (~325 – 390 GB)

Západná hranica pri kvantitatívnej produkcii

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) v 3. – 4. štvrťroku (~317 – 404 GB) pohodlné (~20 – 30 tok/s jeden, publikovaná referencia)
  • Flame 4 Maverick (400 miliárd/17 miliárd, 128 expertov) v 5. – 6. štvrťroku (~290 – 350 GB)
  • Llama-3.1-Nemotron Ultra 253B pri bf16 (~506 GB) na karte
  • Snehová vločka Arktída v 5. – 6. štvrťroku (~350 – 420 GB); Grok-1 v 5. – 6. štvrťroku (~225 – 270 GB)
  • Pokyny DBRX 132B/36B pri bf16 (~264 GB) viacero inštancií

Modely vizuálno-jazykového vnímania

Vlajková loď VLM Qwen3-VL-235B-A22B s dlhým kontextom; InternVL3.5-241B-A28B na bf16 (~482 GB); viaceré inštancie GLM-4.5V / 4.6V 106B bf16; viaceré inštancie Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16; viaceré inštancie Molmo 72B bf16.

Generovanie obrazu

Súbežné inštancie inštrukcií HunyuanImage-3.0; viaceré inštancie FLUX.1 (~15-20 s na obrázok 1024x1024, publikovaná referencia); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0 — súbežne rezidentný plný čínsky a západný zásobník obrazov.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B — viacero súbežných streamov; HunyuanVideo 13B bf16 viacero súbežných streamov; Open-Sora 2.0 (11B) viacero inštancií; Mochi-1 (10B) viacero inštancií; NVIDIA Cosmos Predict 2 až do 14B.

Zvuk / Reč / TTS

Full stack rezident v dávke: Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Multimodelové/multi-tenantské služby (určujúci prípad použitia)

  • Viacnásobná hraničná produkcia: 4 modely hraničnej triedy nainštalované súčasne — napr. DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — s rozdelenou VRAM a SLO pre jednotlivých nájomcov
  • Súbežná fp8-natívna Blackwellova inferencia (rodina DeepSeek V3 / R1, Hunyuan fp8) + kvantizované obsluhovanie na samostatných PCIe doménach
  • Výskum A/B modelov naprieč 4-5 hraničnými otvorenými váhami s kvantitatívnymi metódami výskumnej úrovne
  • Agentská platforma s viac ako 400 miliardami primárnych pracovníkov a viacerými rezidentnými špecialistami s 30 – 70 miliardami pracovníkov

Cieľové pracovné zaťaženia

  • Viacnájomnícka hraničná produkcia s otvorenou váhou – viacero hraničných modelov prítomných súbežne s izoláciou na nájomcu
  • Nasadenie umelej inteligencie na suverénnych hraniciach – prístup k lokálnym systémom DeepSeek V3 FP8 / Kimi-K2 / Mistral Large 3, umiestnenie dát v EÚ
  • Laboratórium Frontier Research s A/B hodnotením naprieč 4+ Frontier Open-Way modelmi na kvantitatívnej úrovni výskumnej úrovne
  • Podniková agentská platforma, kde viac ako 400 miliárd nástrojov MoE + viacero špecializovaných modelov
  • Inferencia regulovaného odvetvia s vzdušnou medzerou na hranici hraníc s ECC + PCIe Gen5

Publikované referencie výkonnosti

Externé referencie | Nemerané na hardvéri Kentino

mierka Výsledok
RTX Pro 6000 na kartu INT8 TOPS 2 000 TOPOV
vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (jedna grafická karta) ~30-50 tok/s
vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (dávka-32) Agregát s výkonom 300 – 500 tok/s
Kimi-K2 v 4. štvrťroku na 8 grafických kariet RTX Pro 6000 (jedna) ~15-25 tok/s
FLUX.1 [dev] fp8 na jednej grafickej karte RTX Pro 6000 ~15-20 s na obrázok s rozlíšením 1024x1024

Presné čísla potvrdené vo fáze PoC. Kentino zverejní čísla od prvej strany po prvotnej zákazníckej verzii.

Nie ideálne pre

  • Nasadenia s ohľadom na rozpočet – vlajková loď SKU za vlajkovú cenu
  • Školenie od nuly na modeloch najvyššej úrovne – bez NVLink, iba PCIe P2P (pre školenie v tomto rozsahu je H100/H200 SXM alebo GB200 NVLink fabric tým správnym nástrojom)
  • Nasadenie typu „plug-and-play“ – hraničné viacnájomné služby MoE vyžadujú skúsený tím MLOps

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa zostavenie, konfiguráciu BIOSu, inštaláciu ovládačov, naprogramovanie, memtest, overenie funkčnosti, ladenie NUMA a nastavenie prostredia LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack s jadrami FP8 Blackwell). Dodacia lehota závisí od dostupnosti komponentov, potvrdenej pri objednávke.

Odporúčané doplnky

  • Sieťová karta NVIDIA ConnectX-5 MCX555A-ECAT alebo ConnectX-7 Gen5 100 GbE pre škálovanie viacerých uzlov
  • Mellanox ConnectX-6 25 GbE SFP28 pre dátové centrá
  • Druhý 4 TB NVMe pre knižnicu dát/modelov (kontrolné body na hraniciach sú veľké – samotný Kimi-K2 bf16 má ~1 TB)
  • Plná 24U racková skriňa s prednými perforovanými dverami a spravovaným PDU
  • Online UPS 10 kVA (plynulé vypnutie pri výpadku napájania)
Zobraziť všetky podrobnosti