Kentino sro
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)
Nepodarilo sa načítať dostupnosť vyzdvihnutia
K-AI 288 Rím L40 2172TOPS
288 GB ECC VRAM Enterprise Server
6x NVIDIA L40 pasívny | EPYC Milan | 2 172 TOPS INT8
Publikované externé referencie. Nemerané na hardvéri Kentino.
4U rackový podnikový inferenčný server so šiestimi pasívnymi dátovými kartami NVIDIA L40 Ada Lovelace (každá s 48 GB ECC) spojenými s 288 GB ECC VRAM, jedným procesorom AMD EPYC 7643 Milan (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe bootovaním a duálnym synchronizovaným 2.5 kW ATX zdrojom. ECC end-to-end, špeciálne navrhnutý pre nepretržitú podnikovú produkciu, kde záleží na integrite na úrovni bitov a prevádzkyschopných doménach zlyhania.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 6x NVIDIA L40 48 GB ECC (Ada Lovelace, pasívne dátové centrum, 300 W, PCIe 4.0 x16, dvojslotová, 362 INT8 TOPS/karta) |
| fond VRAM | 288 GB agregovanej ECC pamäte na 6 kartách (bez NVLink na L40 PCIe SKU) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 sloty DIMM voľné pre rozšírenie na 512 GB) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | 2x 2.5 kW ATX s synchronizačným káblom pre dva zdroje (agregát 5 kW) |
| Podvozok | Montáž do racku 4U (6-slotové rozloženie) |
| Chladenie | Vežový chladič SP3 (trieda Arctic Freezer 4U-M) + smerované prúdenie vzduchu spredu dozadu (priemyselné ventilátory) |
| sieť | Duálny 10 GbE integrovaný (Intel X550) |
Napájacia obálka
- Spotreba grafického procesora: 6 x 300 W = 1 800 W
- Celkový výkon systému pri plnom zaťažení: ~2 175 W
- Celkový výkon zdroja: 5 000 W (duálny synchronizovaný zdroj 2.5 kW) — 56.5 % rezerva
- Duálny zdroj PSU pre rozdelené napájanie – porucha jedného zdroja = strata 2 grafických kariet alebo 2 grafických kariet + základnej dosky
Topológia jazdných pruhov
ROMED8-2T odhaľuje 7x PCIe 4.0 x16 priamo z EPYC Milan. Šesť slotov je osadených pasívnymi rozširujúcimi kartami Gen4 x16 – jeden voľný slot pre sieťovú kartu/úložisko. Nie je potrebný žiadny prepínač PCIe. Natívne prepojenie L40 je PCIe 4.0 x16 – žiadna strata šírky pásma. Žiadne NVLink; prevádzka medzi GPU prebieha cez PCIe peer-to-peer.
Čo môžete spustiť
S 288 GB združenej ECC VRAM na 6 pasívnych kartách L40 tento server spracováva LLM s otvorenou váhou na úrovni frontier v štvrtom štvrťroku, súbežné poskytovanie viacerých modelov, video/mediálne kanály a nepretržitú podnikovú produkčnú inferenciu. Poznámka: L40 je Ada Lovelace, nie Blackwell – fp8 pretypuje na bf16. Pre maximálnu efektivitu VRAM použite GGUF Q4/Q5 alebo AWQ/GPTQ int4.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-235B-A22B 4. štvrťrok (~132 GB) s veľmi dlhým kontextom + štedrým rozpočtom na KV (~15-20 tok/s jeden, publikovaná referencia)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) pohodlne na 6-cestnom TP (~12-18 tok/s jeden, publikovaná referencia)
- Hunyuan-Veľký 389B/52B Q3 (~160 GB); ERNIE-4.5-424B-A47B 3. štvrťrok (~180 GB)
- Qwen3-Coder-480B-A35B Vlajkový kódovací agent pre 2. štvrťrok (~160 GB)
- MiniMax-M1 / Text-01 Q3 (~180 GB) 1M-ctx Lightning Upozornenie
- Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — jedna karta so 6 paralelnými streammi
- DeepSeek-R2 32B riedke MoE – jedna karta na stream, 6 súbežných relácií
Západná hranica
- Lama 3.3 70B bf16 (~142 GB) viacnájomnícka služba (~17 tok/s jeden, publikovaná referencia) alebo Q4 (~43 GB so 6 súbežnými kópiami
- Flame 4 Scout 109B/17B bf16 (~218 GB málo) alebo Q4 (~63 GB) pohodlne
- Mistral Malý 3 / Magistral / Devstral Malý (24B) bf16 (~40-50 tok/s jeden, publikovaná referencia)
- Pixtral Large / Mistral Large 2 6. – 8. štvrťrok (~90 – 140 GB)
- Llama-3.1-Nemotron Ultra 253B 4. štvrťrok (~119 GB)
- gpt-oss-120b MXFP4 (~80 GB cez GGUF na Ada — poznámka k upozorneniu na upcast Ada)
- Príkaz Cohere R+ 104B Q4 RAG stack
Modely vizuálno-jazykového vnímania
Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B; InternVL3.5-78B / 241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16 (~180 GB); Pixtral 12B; Molmo 72B; Gemma 3 12B/27B multimodálny; GLM-4.6V full (106B bf16); MiniCPM-o 2.6. NVENC/NVDEC v L40 je obzvlášť užitočný pre vysokopriepustné VLM dokumenty/video kanály.
Generovanie obrazu
FLUX.1 [dev] / Kontext / Nástroje pre viacero pracovníkov súčasne (~3.5 s na obrázok 1024x1024 na jednom L40 fp8, publikovaná referencia) — možná 6x farma pracovníkov ComfyUI; SD 3.5 Large; HunyuanImage-2.1 (17B) bf16; HunyuanDiT; Kolors 2.0; AuraFlow; OmniGen.
Generovanie videa
Wan 2.2 T2V-A14B / I2V-A14B dual-expert bf16 (~54 GB, ~20-30 s na 4s klip pri 720p, publikovaná referencia); HunyuanVideo 13B bf16 oba experty; Open-Sora 2.0 bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; NVIDIA Cosmos Predict 2. Hardvér L40 s funkciou NVENC/NVDEC spracováva titulky / moderovanie / transkódovanie vo veľkom meradle spolu s generovaním.
Zvuk / Reč / TTS
- ASR: Whisper v3 veľký / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; Step-Audio-EditX
- V reálnom čase / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
Poskytovanie viacerých modelov / viacerých nájomníkov
- Viacmodelová rezidencia — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, všetky rezidentné systémy
- 6 súbežných úloh triedy 48 GB (jedna na kartu): 6x Qwen3-VL-32B alebo 6x FLUX.1 workers alebo 6x ASR streamy
- 6-cestná tenzorová paralelnosť pre 200B+ MoE v 4. štvrťroku s reálnym kontextom
- RAG kanály — Command R+ / Qwen3 + reranker + embedder + analýza obrazu na tom istom hostiteľovi
Cieľové pracovné zaťaženia
- Nonstop produkčný LLM inferenčný backend — viac ako 100 súbežných používateľov na viac ako 200 miliardách MoE v 4. štvrťroku, chránené ECC
- Kanál Media-AI v podnikovom meradle — titulky + moderovanie + miniatúry + transkódovanie na 6 paralelných streamoch cez NVENC/NVDEC
- Multi-tenant SaaS, kde je dôležitá izolácia jednotlivých nájomníkov naprieč fyzickými kartami
- RAG backend s plne rezidentným čítačom + rerankerom + embedderom + vision modulom Command R+
- Dvojica zameraná na spoľahlivosť, ktorá nahrádza 12x L40 Legacy – dva servery K-AI 288 = agregát 576 GB s nezávislými doménami zlyhania
Publikované referencie výkonnosti
Externé referencie | Nemerané na hardvéri Kentino
| mierka | Výsledok |
|---|---|
| L40 na kartu INT8 TOPS | 362 TOPS |
| Šírka pásma pamäte L40 | 864 GB/s na kartu |
| vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (single) | ~25-35 tok/s |
| vLLM — Llama 3.3 70B AWQ INT4 na 2x L40 TP (šarža-16) | ~150-200 tok/s agregát |
| llama.cpp — GLM-4.6 Q4 na 6x L40 (jednoduchý) | ~12-18 tok/s |
| FLUX.1 [dev] na jednom L40 fp8 | ~3.5 s na obrázok s rozlíšením 1024x1024 |
Spoločnosť Kentino zverejní čísla od prvej strany po prvotnej zákazníckej verzii.
Nie ideálne pre
- Natívna inferencia pre fp8 pri plnej rýchlosti — Ada pretypuje na bf16; namiesto toho použite GGUF Q4/Q5 alebo AWQ/GPTQ int4. Pre natívnu inferenciu pre fp8 pozri K-AI 384 Rome RTXPro6000 (Blackwell)
- Trénovanie veľkých modelov od začiatku (bez NVLink)
- Inferencia pre jedného používateľa s nízkym rozpočtom – 4x L4 alebo 4x 5080 je podstatne lacnejšia pre malé pracovné zaťaženia
- Hustota Frontier 600B+ v Q4+ (vyžaduje sa 576 GB+ pool – pozri 6x RTX Pro 6000)
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, naprogramovanie, testovanie pamäte a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- Rozšírte pamäť RAM na 512 GB DDR4 (pridajte 2x 64 GB — 2 voľné sloty DIMM) pre náročnejší rozpočet KV
- 4 TB NVMe Gen4 x4 pre prípravu knižnice modelov
- Plná 24U racková skriňa so spravovaným PDU + online UPS (kritická pre nepretržitú prevádzku ECC)
- Spárovaná druhá jednotka K-AI 288 – nahrádza obálku 12x L40 Legacy s dvoma nezávislými doménami zlyhania
zdieľam
