Preskočiť na informácie o produkte
1 of 7

Kentino sro

K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)

K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)

Normálna cena EUR € 59.490,00
Normálna cena Zľavnená cena EUR € 59.490,00
ZĽAVA Vypredané
Vrátane daní. Doprava vypočítané pri pokladni.

K-AI 288 Rím L40 2172TOPS

288 GB ECC VRAM Enterprise Server
6x NVIDIA L40 pasívny | EPYC Milan | 2 172 TOPS INT8

2 172
TOPS INT8
288 GB
fond ECC VRAM
ECC
end-to-end
24/7
výrobne dimenzované

Publikované externé referencie. Nemerané na hardvéri Kentino.

4U rackový podnikový inferenčný server so šiestimi pasívnymi dátovými kartami NVIDIA L40 Ada Lovelace (každá s 48 GB ECC) spojenými s 288 GB ECC VRAM, jedným procesorom AMD EPYC 7643 Milan (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe bootovaním a duálnym synchronizovaným 2.5 kW ATX zdrojom. ECC end-to-end, špeciálne navrhnutý pre nepretržitú podnikovú produkciu, kde záleží na integrite na úrovni bitov a prevádzkyschopných doménach zlyhania.

technické vybavenie

Zložka detail
GPU 6x NVIDIA L40 48 GB ECC (Ada Lovelace, pasívne dátové centrum, 300 W, PCIe 4.0 x16, dvojslotová, 362 INT8 TOPS/karta)
fond VRAM 288 GB agregovanej ECC pamäte na 6 kartách (bez NVLink na L40 PCIe SKU)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 sloty DIMM voľné pre rozšírenie na 512 GB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj 2x 2.5 kW ATX s synchronizačným káblom pre dva zdroje (agregát 5 kW)
Podvozok Montáž do racku 4U (6-slotové rozloženie)
Chladenie Vežový chladič SP3 (trieda Arctic Freezer 4U-M) + smerované prúdenie vzduchu spredu dozadu (priemyselné ventilátory)
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 6 x 300 W = 1 800 W
  • Celkový výkon systému pri plnom zaťažení: ~2 175 W
  • Celkový výkon zdroja: 5 000 W (duálny synchronizovaný zdroj 2.5 kW) — 56.5 % rezerva
  • Duálny zdroj PSU pre rozdelené napájanie – porucha jedného zdroja = strata 2 grafických kariet alebo 2 grafických kariet + základnej dosky

Topológia jazdných pruhov

ROMED8-2T odhaľuje 7x PCIe 4.0 x16 priamo z EPYC Milan. Šesť slotov je osadených pasívnymi rozširujúcimi kartami Gen4 x16 – jeden voľný slot pre sieťovú kartu/úložisko. Nie je potrebný žiadny prepínač PCIe. Natívne prepojenie L40 je PCIe 4.0 x16 – žiadna strata šírky pásma. Žiadne NVLink; prevádzka medzi GPU prebieha cez PCIe peer-to-peer.

Čo môžete spustiť

S 288 GB združenej ECC VRAM na 6 pasívnych kartách L40 tento server spracováva LLM s otvorenou váhou na úrovni frontier v štvrtom štvrťroku, súbežné poskytovanie viacerých modelov, video/mediálne kanály a nepretržitú podnikovú produkčnú inferenciu. Poznámka: L40 je Ada Lovelace, nie Blackwell – fp8 pretypuje na bf16. Pre maximálnu efektivitu VRAM použite GGUF Q4/Q5 alebo AWQ/GPTQ int4.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3-235B-A22B 4. štvrťrok (~132 GB) s veľmi dlhým kontextom + štedrým rozpočtom na KV (~15-20 tok/s jeden, publikovaná referencia)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) pohodlne na 6-cestnom TP (~12-18 tok/s jeden, publikovaná referencia)
  • Hunyuan-Veľký 389B/52B Q3 (~160 GB); ERNIE-4.5-424B-A47B 3. štvrťrok (~180 GB)
  • Qwen3-Coder-480B-A35B Vlajkový kódovací agent pre 2. štvrťrok (~160 GB)
  • MiniMax-M1 / Text-01 Q3 (~180 GB) 1M-ctx Lightning Upozornenie
  • Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — jedna karta so 6 paralelnými streammi
  • DeepSeek-R2 32B riedke MoE – jedna karta na stream, 6 súbežných relácií

Západná hranica

  • Lama 3.3 70B bf16 (~142 GB) viacnájomnícka služba (~17 tok/s jeden, publikovaná referencia) alebo Q4 (~43 GB so 6 súbežnými kópiami
  • Flame 4 Scout 109B/17B bf16 (~218 GB málo) alebo Q4 (~63 GB) pohodlne
  • Mistral Malý 3 / Magistral / Devstral Malý (24B) bf16 (~40-50 tok/s jeden, publikovaná referencia)
  • Pixtral Large / Mistral Large 2 6. – 8. štvrťrok (~90 – 140 GB)
  • Llama-3.1-Nemotron Ultra 253B 4. štvrťrok (~119 GB)
  • gpt-oss-120b MXFP4 (~80 GB cez GGUF na Ada — poznámka k upozorneniu na upcast Ada)
  • Príkaz Cohere R+ 104B Q4 RAG stack

Modely vizuálno-jazykového vnímania

Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B; InternVL3.5-78B / 241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16 (~180 GB); Pixtral 12B; Molmo 72B; Gemma 3 12B/27B multimodálny; GLM-4.6V full (106B bf16); MiniCPM-o 2.6. NVENC/NVDEC v L40 je obzvlášť užitočný pre vysokopriepustné VLM dokumenty/video kanály.

Generovanie obrazu

FLUX.1 [dev] / Kontext / Nástroje pre viacero pracovníkov súčasne (~3.5 s na obrázok 1024x1024 na jednom L40 fp8, publikovaná referencia) — možná 6x farma pracovníkov ComfyUI; SD 3.5 Large; HunyuanImage-2.1 (17B) bf16; HunyuanDiT; Kolors 2.0; AuraFlow; OmniGen.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B dual-expert bf16 (~54 GB, ~20-30 s na 4s klip pri 720p, publikovaná referencia); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; NVIDIA Cosmos Predict 2. Hardvér L40 s funkciou NVENC/NVDEC spracováva titulky / moderovanie / transkódovanie vo veľkom meradle spolu s generovaním.

Zvuk / Reč / TTS

  • ASR: Whisper v3 veľký / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B

Poskytovanie viacerých modelov / viacerých nájomníkov

  • Viacmodelová rezidencia — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, všetky rezidentné systémy
  • 6 súbežných úloh triedy 48 GB (jedna na kartu): 6x Qwen3-VL-32B alebo 6x FLUX.1 workers alebo 6x ASR streamy
  • 6-cestná tenzorová paralelnosť pre 200B+ MoE v 4. štvrťroku s reálnym kontextom
  • RAG kanály — Command R+ / Qwen3 + reranker + embedder + analýza obrazu na tom istom hostiteľovi

Cieľové pracovné zaťaženia

  • Nonstop produkčný LLM inferenčný backend — viac ako 100 súbežných používateľov na viac ako 200 miliardách MoE v 4. štvrťroku, chránené ECC
  • Kanál Media-AI v podnikovom meradle — titulky + moderovanie + miniatúry + transkódovanie na 6 paralelných streamoch cez NVENC/NVDEC
  • Multi-tenant SaaS, kde je dôležitá izolácia jednotlivých nájomníkov naprieč fyzickými kartami
  • RAG backend s plne rezidentným čítačom + rerankerom + embedderom + vision modulom Command R+
  • Dvojica zameraná na spoľahlivosť, ktorá nahrádza 12x L40 Legacy – dva servery K-AI 288 = agregát 576 GB s nezávislými doménami zlyhania

Publikované referencie výkonnosti

Externé referencie | Nemerané na hardvéri Kentino

mierka Výsledok
L40 na kartu INT8 TOPS 362 TOPS
Šírka pásma pamäte L40 864 GB/s na kartu
vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (single) ~25-35 tok/s
vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (šarža-16) ~150-200 tok/s agregát
llama.cpp — GLM-4.6 Q4 na 6x L40 (jednoduchý) ~12-18 tok/s
FLUX.1 [dev] na jednom L40 fp8 ~3.5 s na obrázok s rozlíšením 1024x1024

Spoločnosť Kentino zverejní čísla od prvej strany po prvotnej zákazníckej verzii.

Nie ideálne pre

  • Natívna inferencia pre fp8 pri plnej rýchlosti — Ada pretypuje na bf16; namiesto toho použite GGUF Q4/Q5 alebo AWQ/GPTQ int4. Pre natívnu inferenciu pre fp8 pozri K-AI 384 Rome RTXPro6000 (Blackwell)
  • Trénovanie veľkých modelov od začiatku (bez NVLink)
  • Inferencia pre jedného používateľa s nízkym rozpočtom – 4x L4 alebo 4x 5080 je podstatne lacnejšia pre malé pracovné zaťaženia
  • Hustota Frontier 600B+ v Q4+ (vyžaduje sa 576 GB+ pool – pozri 6x RTX Pro 6000)

Záruka a dodacia lehota

3 rokov
Záruka na grafickú kartu NVIDIA OEM
2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, naprogramovanie, testovanie pamäte a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Rozšírte pamäť RAM na 512 GB DDR4 (pridajte 2x 64 GB — 2 voľné sloty DIMM) pre náročnejší rozpočet KV
  • 4 TB NVMe Gen4 x4 pre prípravu knižnice modelov
  • Plná 24U racková skriňa so spravovaným PDU + online UPS (kritická pre nepretržitú prevádzku ECC)
  • Spárovaná druhá jednotka K-AI 288 – nahrádza obálku 12x L40 Legacy s dvoma nezávislými doménami zlyhania
Zobraziť všetky podrobnosti