Kentino sro
K-AI 768 TurinDuálny RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duálny Turin)
K-AI 768 TurinDuálny RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (duálny Turin)
Nepodarilo sa načítať dostupnosť vyzdvihnutia
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS
768 GB ECC VRAM Frontier Flagship
8x RTX Pro 6000 Max-Q | Dual EPYC Turin | 16 000 TOPS INT8
Cena CPU bola finalizovaná pri objednávke – trh s procesormi série Turin 9005 sa v 2. štvrťroku 2026 pohybuje každý týždeň.
Publikované externé referencie. Nemerané na hardvéri Kentino.
Špičkový model zo série serverov Kentino s umelou inteligenciou. Vlajková loď inferenčnej platformy Frontier pre 7U rackové použitie s ôsmimi grafickými kartami NVIDIA RTX Pro 6000 Blackwell Max-Q s turboventilátorom, ktoré sú obsadené 768 GB ECC VRAM, dvoma procesormi AMD EPYC Turin radu 9005 (Zen5c, SP5), 1.5 TB pamäte DDR5-4800 ECC (všetkých 24 kanálov je obsadených), 4 TB NVMe bootovacou pamäťou a 5x 1200 W serverovým zdrojom. Komplexné rozhranie PCIe Gen5. Natívny DeepSeek V3 fp8 (~670 GB) na karte. Kimi-K2 Q4-Q5. Súčasne inštalované 4 modely Frontier triedy.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turboventilátor, špecifikácia TDP 600 W, PCIe 5.0 x16, 2000 INT8 TOPS/karta, natívna FP8) |
| fond VRAM | Celkovo 768 GB na 8 kartách (bez NVLink — P2P cez PCIe Gen5 s rýchlosťou ~55-60 GB/s v rámci socketu, medzi socketmi cez prepojenie CPU) |
| CPU | 2x AMD EPYC Turin radu 9005 (Zen5c, SP5, PCIe 5.0) — cenová ponuka čaká na vypracovanie, presný kód SKU potvrdený pri objednávke |
| Základná doska | ASRock Rack TURIN2D24XGM/500W (duálny SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI) |
| Systémová RAM | 1.5 TB DDR5-4800 ECC RDIMM (24x 64 GB — všetkých 24 kanálov je obsadených, celkovo ~920 GB/s) |
| Bootovanie / úložisko | 4 TB NVMe M.2 (PCIe 4.0 x4) – dimenzované pre hraničné kontrolné stanovištia |
| Zdroj | 5x 1200 W serverový zdroj (spolu 6 kW) |
| Podvozok | 7U rackový systém s 8 GPU, kapacita 10 slotov PCIe, aktívne rozširujúce karty Gen5 |
| Chladenie | 2x vežové chladiče SP5 Turin + 8x 120 mm ventilátory Martech pre šasi. Samostatné turboventilátory pre každú grafickú kartu. |
| sieť | Duálny 10 GbE integrovaný (Intel X550) |
Napájacia obálka
- Spotreba GPU (špecifikácia): 8 x 600 W = 4 800 W
- Spotreba CPU: 2 x 360 W = 720 W (odhad pre strednú úroveň Turína)
- Celkový výkon systému pri plnom zaťažení: ~5 720 W
- Celkový výkon zdroja: 6 000 W — ~4.7 % hrubej rezervy pri špecifikácii
- Reálny svet: Max-Q udrží 520-550 W v inferencii, čím sa zvýši trvalý výkon na ~20%+
- Firmvérový limit výkonu 520 W je k dispozícii pre zaručenú rezervu
Topológia jazdných pruhov
Dual Turin poskytuje 2x 128 liniek PCIe Gen5. TURIN2D24XGM/500W smeruje 8 slotov GPU priamo pripojených k CPU na Gen5 x16 cez aktívne rozširujúce karty – 4 sloty na koreň CPU. Žiadny prepínač PCIe v ceste GPU – čistá topológia duálneho koreňa. Pre optimálne peer-to-peer pripojenie medzi socketmi je potrebné ladenie NUMA. Žiadne NVLink; P2P rýchlosťou ~55-60 GB/s na smer v rámci socketu.
Čo môžete spustiť
So 768 GB združenej ECC VRAM – vrcholom Kentino balíka – tento server beží na karte DeepSeek V3 fp8 natívne (~670 GB), komfortne spúšťa Kimi-K2 Q4-Q5 (~630 GB) a predstavuje definujúci prípad použitia: 4 modely hraničnej triedy pracujúce súčasne pre produkčné služby s viacerými nájomníkmi.
LLM – text / uvažovanie / kódovanie
Čínska hranica v kvantitatívnej produkcii
- Kimi-K2 (Základňa / Inštruktáž / Myslenie) pri Q4_K_M / Q5_K_M (~630 GB) pohodlne (~15-25 tok/s single, publikovaná referencia) — vlajková loď čínskej hranice na jednom boxe pri produkčných množstvách
- DeepSeek V3 / R1 / V3.1 / V3.2 pri natívnej rýchlosti FP8 (~670 GB) na karte (~30-50 taktov/s samostatne, publikovaná referencia) — tenzorové jadrá Blackwell FP8 to natívne spúšťajú rýchlosťou
- DeepSeek V3 v Q4_K_M (~404 GB) s viacerými súbežnými inštanciami poskytovanými vo veľkých dávkach
- GLM-5 / GLM-5.1 (~745B/44B) v 3. – 4. štvrťroku (~420 – 560 GB) pohodlná kapacita na karte
- Intern-S1-Pro (1T/22B aktívny, SAGE) v 3. – 4. štvrťroku (~440 – 580 GB) pohodlne
- Qwen3-Coder-480B-A35B v 5. – 6. štvrťroku (~340 – 400 GB) s 1 miliónom ctx
- Qwen3-235B-A22B pri bf16 (~470 GB) s veľkorysým KV pre dlhý kontext
- ERNIE-4.5-424B-A47B v 6. štvrťroku (~360 GB); Hunyuan-Veľký pri 8. frameworku (~390 GB)
- MiniMax-Text-01 / M1 v 5. – 6. štvrťroku (~325 – 390 GB)
Západná hranica pri kvantitatívnej produkcii
- Mistral Large 3 (675B/41B MoE, Apache 2.0) v 3. – 4. štvrťroku (~317 – 404 GB) pohodlné (~20 – 30 tok/s jeden, publikovaná referencia)
- Flame 4 Maverick (400 miliárd/17 miliárd, 128 expertov) v 5. – 6. štvrťroku (~290 – 350 GB)
- Llama-3.1-Nemotron Ultra 253B pri bf16 (~506 GB) na karte
- Snehová vločka Arktída v 5. – 6. štvrťroku (~350 – 420 GB); Grok-1 v 5. – 6. štvrťroku (~225 – 270 GB)
- Pokyny DBRX 132B/36B pri bf16 (~264 GB) viacero inštancií
Modely vizuálno-jazykového vnímania
Vlajková loď VLM Qwen3-VL-235B-A22B s dlhým kontextom; InternVL3.5-241B-A28B na bf16 (~482 GB); viaceré inštancie GLM-4.5V / 4.6V 106B bf16; viaceré inštancie Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16; viaceré inštancie Molmo 72B bf16.
Generovanie obrazu
Súbežné inštancie inštrukcií HunyuanImage-3.0; viaceré inštancie FLUX.1 (~15-20 s na obrázok 1024x1024, publikovaná referencia); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0 — súbežne rezidentný plný čínsky a západný zásobník obrazov.
Generovanie videa
Wan 2.2 T2V-A14B / I2V-A14B — viacero súbežných streamov; HunyuanVideo 13B bf16 viacero súbežných streamov; Open-Sora 2.0 (11B) viacero inštancií; Mochi-1 (10B) viacero inštancií; NVIDIA Cosmos Predict 2 až do 14B.
Zvuk / Reč / TTS
Full stack rezident v dávke: Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Multimodelové/multi-tenantské služby (určujúci prípad použitia)
- Viacnásobná hraničná produkcia: 4 modely hraničnej triedy nainštalované súčasne — napr. DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — s rozdelenou VRAM a SLO pre jednotlivých nájomcov
- Súbežná fp8-natívna Blackwellova inferencia (rodina DeepSeek V3 / R1, Hunyuan fp8) + kvantizované obsluhovanie na samostatných PCIe doménach
- Výskum A/B modelov naprieč 4-5 hraničnými otvorenými váhami s kvantitatívnymi metódami výskumnej úrovne
- Agentská platforma s viac ako 400 miliardami primárnych pracovníkov a viacerými rezidentnými špecialistami s 30 – 70 miliardami pracovníkov
Cieľové pracovné zaťaženia
- Viacnájomnícka hraničná produkcia s otvorenou váhou – viacero hraničných modelov prítomných súbežne s izoláciou na nájomcu
- Nasadenie umelej inteligencie na suverénnych hraniciach – prístup k lokálnym systémom DeepSeek V3 FP8 / Kimi-K2 / Mistral Large 3, umiestnenie dát v EÚ
- Laboratórium Frontier Research s A/B hodnotením naprieč 4+ Frontier Open-Way modelmi na kvantitatívnej úrovni výskumnej úrovne
- Podniková agentská platforma, kde viac ako 400 miliárd nástrojov MoE + viacero špecializovaných modelov
- Inferencia regulovaného odvetvia s vzdušnou medzerou na hranici hraníc s ECC + PCIe Gen5
Publikované referencie výkonnosti
Externé referencie | Nemerané na hardvéri Kentino
| mierka | Výsledok |
|---|---|
| RTX Pro 6000 na kartu INT8 TOPS | 2 000 TOPOV |
| vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (jedna grafická karta) | ~30-50 tok/s |
| vLLM — DeepSeek V3 fp8 na 8x RTX Pro 6000 (dávka-32) | Agregát s výkonom 300 – 500 tok/s |
| Kimi-K2 v 4. štvrťroku na 8 grafických kariet RTX Pro 6000 (jedna) | ~15-25 tok/s |
| FLUX.1 [dev] fp8 na jednej grafickej karte RTX Pro 6000 | ~15-20 s na obrázok s rozlíšením 1024x1024 |
Presné čísla potvrdené vo fáze PoC. Kentino zverejní čísla od prvej strany po prvotnej zákazníckej verzii.
Nie ideálne pre
- Nasadenia s ohľadom na rozpočet – vlajková loď SKU za vlajkovú cenu
- Školenie od nuly na modeloch najvyššej úrovne – bez NVLink, iba PCIe P2P (pre školenie v tomto rozsahu je H100/H200 SXM alebo GB200 NVLink fabric tým správnym nástrojom)
- Nasadenie typu „plug-and-play“ – hraničné viacnájomné služby MoE vyžadujú skúsený tím MLOps
Záruka a dodacia lehota
Zostavenie zahŕňa zostavenie, konfiguráciu BIOSu, inštaláciu ovládačov, naprogramovanie, memtest, overenie funkčnosti, ladenie NUMA a nastavenie prostredia LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack s jadrami FP8 Blackwell). Dodacia lehota závisí od dostupnosti komponentov, potvrdenej pri objednávke.
Odporúčané doplnky
- Sieťová karta NVIDIA ConnectX-5 MCX555A-ECAT alebo ConnectX-7 Gen5 100 GbE pre škálovanie viacerých uzlov
- Mellanox ConnectX-6 25 GbE SFP28 pre dátové centrá
- Druhý 4 TB NVMe pre knižnicu dát/modelov (kontrolné body na hraniciach sú veľké – samotný Kimi-K2 bf16 má ~1 TB)
- Plná 24U racková skriňa s prednými perforovanými dverami a spravovaným PDU
- Online UPS 10 kVA (plynulé vypnutie pri výpadku napájania)
zdieľam
