Прескочи към информацията за продукта
1 od 7

Kentino sro

K-AI 576 Genoa RTXPro6000 12000TOPS — 6× RTX Pro 6000 Blackwell Server Edition AI Frontier Server

K-AI 576 Genoa RTXPro6000 12000TOPS — 6× RTX Pro 6000 Blackwell Server Edition AI Frontier Server

Обичайна цена EUR € 106.069,00
Обичайна цена Цена при разпродажба EUR € 106.069,00
zľava Изчерпано
С включени данъци. Доставката се изчислява при плащане.

K-AI 576 Genoa RTXPro6000 12000TOPS

576 GB ECC VRAM Frontier Research Server
6x RTX Pro 6000 Server Edition | EPYC Genoa | 12 000 TOPS INT8

12 000
TOPS INT8
576 GB
fond ECC VRAM
BCM
Prepínač PCIe Gen5
Hranice
výskum na mieste

Publikované externé referencie. Nemerané na hardvéri Kentino.

7U racková inferenčná platforma pre hraničnú úroveň so šiestimi pasívnymi kartami NVIDIA RTX Pro 6000 Blackwell Server Edition, ktoré sú združené do 576 GB ECC VRAM, jedného procesora AMD EPYC 9354 Genoa (32C/64T), 768 GB DDR5-4800 ECC (všetkých 12 kanálov obsadených), 4 TB NVMe bootovania a 5x 1200 W serverového zdroja. Integrovaný prepínač Broadcom PCIe Gen5 sa rovnomerne rozdeľuje do všetkých 6 slotov GPU. DeepSeek V3 Q4 (~404 GB) pohodlne pracuje s dlhým kontextom, Kimi-K2 Q2, Mistral Large 3 Q2-Q3 – plnohodnotná hraničná lokálna platforma.

technické vybavenie

Zložka detail
GPU 6x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC (pasívna, 600 W, PCIe 5.0 x16, 2000 INT8 TOPS na kartu)
fond VRAM Celkom 576 GB na 6 kartách (bez NVLink — P2P cez PCIe Gen5 s rýchlosťou ~55-60 GB/s na smer)
CPU AMD EPYC 9354 Genoa (32C/64T, 280 W, 128x PCIe 5.0 liniek, 12-kanálová DDR5)
Základná doska ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, integrovaný prepínač Broadcom PEX PCIe Gen5, 12x DDR5, 2x 10 GbE, IPMI)
Systémová RAM 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — všetky kanály obsadené, celkovo ~460 GB/s)
Bootovanie / úložisko 4 TB NVMe M.2 (PCIe 4.0 x4) – dimenzované pre hraničné kontrolné stanovište
Zdroj 5x 1200 W serverový zdroj (kompatibilný s HP, spolu 6 kW)
Podvozok 7U rackový systém s 8 GPU, kapacita 10 slotov PCIe, aktívne rozširujúce karty Gen5
Chladenie Vežový chladič SP5 Genoa, 8x 120 mm ventilátory v šasi, potrebné prúdenie vzduchu pre dátové centrum spredu dozadu. Pasívne grafické karty.
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 6 x 600 W = 3 600 W
  • Celkový výkon systému pri plnom zaťažení: ~4 080 W
  • Celkový výkon zdroja: 6 000 W (5x 1 200 W) — 32 % priestoru pre výšku
  • Pre inferenciu v ustálenom stave nie je potrebný žiadny obmedzený výkon

Topológia jazdných pruhov

GENOAD8X-2T/BCM integruje prepínač Broadcom PEX PCIe Gen5 na doske. 128 liniek Gen5 z koreňového portu EPYC Genoa pred prepínačom, ktorý sa rovnomerne rozširuje do všetkých 6 slotov GPU na Gen5 x16 end-to-end prostredníctvom aktívnych rozširujúcich portov. Čistá topológia s jedným koreňom – jednoduchšie ladenie NUMA ako pri duálnom sokete. Žiadne NVLink; P2P rýchlosťou ~55-60 GB/s na smer.

Čo môžete spustiť

S 576 GB združenej ECC VRAM na natívnom kremíku Blackwell FP8 tento server beží na plnej čínskej a západnej hranici otvorenej váhy na úrovni kvantových procesorov výskumnej úrovne: DeepSeek V3 Q4 (~404 GB) s dlhým kontextom, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • DeepSeek V3 / R1 / V3.1 / V3.2 v Q4_K_M (~404 GB) vyhovuje dlhému kontextu (~5-8 tok/s jeden vLLM TP-6, publikovaná referencia); FP8 natívny (~670 GB) s únikom RAM
  • Kimi-K2 (Základ / Inštrukt / Myslenie) pri Q2_K (~375 GB) pohodlne (~5-8 tok/s jeden, publikovaná referencia)
  • GLM-5 / GLM-5.1 (~745B/44B) v 2. štvrťroku (~260 GB) pohodlne; v 3. štvrťroku (~420 GB) s prebytkom RAM
  • Qwen3-Coder-480B-A35B v Q4_K_M (~270 GB) s dlhým kontextom
  • Qwen3-235B-A22B pri bf16 (~470 GB) alebo FP8 (~240 GB)
  • ERNIE-4.5-424B-A47B v 4. štvrťroku (~240 GB) s plnými 128 kB ctx
  • Intern-S1-Pro (1T/22B aktívny, SAGE) v Q2_K (~325 GB) pohodlne
  • Hunyuan-Veľký A52B v 4. štvrťroku (~220 GB); MiniMax-M1 v 4. štvrťroku (~260 GB)

Západná hranica

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) v 2. – 3. štvrťroku (~243 – 317 GB) pohodlné (~20 – 30 tok/s jeden, publikovaná referencia)
  • Flame 4 Maverick (400B/17B) v Q4_K_M (~232 GB) s dlhým ctx (~45-55 tok/s jeden, publikovaná referencia)
  • Llama-3.1-Nemotron Ultra 253B pri FP8 (~253 GB) alebo BF16 s pretečenou RAM
  • Grok-1 314B v 4. štvrťroku (~182 GB); Snehová vločka Arktída v 4. štvrťroku (~278 GB)
  • Pokyny DBRX 132B/36B pri bf16 (~264 GB) alebo viaceré inštancie fp8
  • Všetky modely triedy 70-120B v bf16 s dostatkom miesta

Modely vizuálno-jazykového vnímania

Vlajková loď VLM Qwen3-VL-235B-A22B; InternVL3.5-241B-A28B Q4 (~135 GB); GLM-4.5V / 4.6V 106B bf16 (~210 GB); Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.

Generovanie obrazu

Úroveň inštrukcií HunyuanImage-3.0 (3x 80 GB) – zodpovedá hardvéru; FLUX.1 [dev] / [shnell] / Kontext multi-instance (~15-20 s na obraz 1024x1024 na jednej RTX Pro 6000 fp8, publikovaná referencia); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B dual-expert MoE bf16 (~54 GB); HunyuanVideo 13B bf16 comfort; Open-Sora 2.0 (11B) bf16; Mochi-1 (10B) fp16; NVIDIA Cosmos Predict 2 až do 14B; CogVideoX-5B; LTX-Video; Pyramid Flow.

Zvuk / Reč / TTS

Súčasne nainštalované všetky systémy: Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Poskytovanie viacerých modelov / viacerých nájomníkov

  • Inferencia DeepSeek V3 Q4 + obraz FLUX + HunyuanVideo + hlas v reálnom čase Whisper/Moshi, všetci súčasne
  • Súbežný 70B tenzorovo-paralelný + 235B-MoE na samostatných PCIe doménach cez prepínač Broadcom
  • A/B hodnotenie výskumu: 3 hraničné modely otvorenej váhy prítomné súčasne

Cieľové pracovné zaťaženia

  • Výskumné laboratórium Frontier s otvorenou technológiou – lokálny prístup k triede DeepSeek V3 / Kimi-K2 / Mistral Large 3 bez nutnosti odchodu do cloudu
  • Nasadenie suverénnej umelej inteligencie – umiestnenie dát v EÚ s modelovým zásobníkom Apache 2.0 / MIT
  • Podniková multimodelová platforma RAG + agenti – v nej je rezidentných niekoľko modelov MoE s kapacitou 200 – 400 miliárd
  • Hodnotenie modelu / výskum bezpečnosti porovnávajúci otvorené váhy pohraničnej Číny a západnej populácie
  • Inferencia v mierke pre regulované odvetvia vyžadujúce vzduchovú medzeru + ECC + PCIe Gen5

Publikované referencie výkonnosti

Externé referencie | Nemerané na hardvéri Kentino

mierka Výsledok
RTX Pro 6000 na kartu INT8 TOPS 2 000 TOPOV
vLLM – DeepSeek V3 Q4 na 6x RTX Pro 6000 (single) ~25-40 tok/s
vLLM – DeepSeek V3 Q4 na 6x RTX Pro 6000 (šarža-32) Agregát s výkonom 200 – 400 tok/s
FLUX.1 [dev] fp8 na jednej grafickej karte RTX Pro 6000 ~15-20 s na obrázok s rozlíšením 1024x1024

Presné čísla potvrdené vo fáze PoC. Kentino zverejní čísla od prvej strany po prvotnej zákazníckej verzii.

Nie ideálne pre

  • Kimi-K2 / DeepSeek V3 v 4. štvrťroku poskytuje produkciu s reálnou rýchlosťou – prechod na duálny Turín s 768 GB pamäťou
  • Školenie od nuly na modeloch najvyššej triedy – bez NVLink, iba PCIe P2P
  • Nasadenie typu „plug-and-play“ – hraničné služby ministerstva životného prostredia potrebujú skúsený tím MLOps

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa zostavenie, konfiguráciu BIOSu, inštaláciu ovládačov, naprogramovanie, memtest, overenie funkčnosti a nastavenie prostredia LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack s jadrami FP8 Blackwell). Dodacia lehota závisí od dostupnosti komponentov, potvrdenej pri objednávke.

Odporúčané doplnky

  • Sieťová karta NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE pre škálovanie viacerých uzlov
  • Druhý 4 TB NVMe disk pre knižnicu dát/modelov
  • Plná 24U racková skriňa s perforovanými prednými dverami
  • Online UPS 10 kVA
  • Spravovaná PDU
Покажи пълните подробности