Kentino sro
K-AI 192 Rím L40 1448TOPS — 4× NVIDIA L40 — EPYC Miláno
K-AI 192 Rím L40 1448TOPS — 4× NVIDIA L40 — EPYC Miláno
Nepodarilo sa načítať dostupnosť vyzdvihnutia
K-AI 192 Rím L40 1448TOPS
192 GB ECC Enterprise Inference Server
4x NVIDIA L40 pasívny | EPYC Milan | 1 448 TOPS INT8
Štyri pasívne karty L40 pre dátové centrá s pamäťou ECC. Rovnaký 192 GB priestor ako 8x RTX 4090 – ale na úrovni dátových centier, s ochranou ECC a zárukou OEM.
4U rackový inferenčný server so štyrmi pasívnymi kartami NVIDIA L40 spojenými so 192 GB ECC VRAM, jedným procesorom AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovaním a duálnym synchronizovaným 2 kW ATX zdrojom. L40 je dátovo orientovaný súrodenec RTX 4090 – pasívne chladený, vybavený ECC, hardvérové enkodéry NVENC/NVDEC na čipe a 3-ročná záruka NVIDIA OEM. Spúšťa vLLM, SGLang, llama.cpp, Triton a TensorRT-LLM ihneď po vybalení.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 4x NVIDIA L40 48 GB ECC GDDR6 (Ada Lovelace, pasívna, 300 W, dvojslotová, PCIe 4.0 x16) |
| fond VRAM | 192 GB ECC na 4 kartách (bez NVLink na L40) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Duálny 2 kW ATX zdroj so synchronizačným káblom |
| Podvozok | 4U rackový systém s prúdením vzduchu smerom spredu dozadu |
| Chladenie | Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk |
| sieť | Duálny 10 GbE integrovaný (Intel X550) |
Napájacia obálka
- Spotreba grafického procesora: 4 x 300 W = 1 200 W
- Celkový výkon systému pri plnom zaťažení: ~1 525 W
- Celkový výkon zdroja: 4 000 W (duálny 2 kW synchronizovaný) — 61.9 % rezerva
- Duálny zdroj PSU pre rozdelené napájanie a podporu N+1
Topológia jazdných pruhov
PCIe Gen4 x16 na kartu (L40 je natívna Gen4). Priame pripojenie root-complex z jednej EPYC – žiadny prepínač PCIe. Žiadny NVLink – prevádzka medzi GPU prebieha cez PCIe peer-to-peer. Zostávajú tri sloty x16 pre sieťovú kartu/rozšírenie úložiska.
Čo môžete spustiť
Vďaka 192 GB ECC VRAM na 4 dátových kartách tento server v 4. štvrťroku zvláda viac ako 200 miliárd MoE na hranici, poskytuje podnikové multitenantské služby s prísnou SLA a poskytuje nepretržitú produkčnú inferenciu bez posunu bitov súvisiaceho s ECC.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlhým kontextom — konfigurácia Hero (~12-18 tok/s jeden stream cez 4x L40); Qwen3-Coder-480B-A35B Q2 (~160 GB, tesné); Qwen3.5-122B-A10B fp8 (~75 GB) s obrovským KV; Qwen3-32B hustý bf16 s viacerými súbežnými streammi
- DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 Q2 (~215 GB s menším únikom RAM); DeepSeek-R2 32B — 4 súbežné streamy, jeden na kartu
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) – ideálna pamäte pre túto úroveň; GLM-4.5-Air 106B/12B fp8 alebo bf16
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 (~80 GB) s obrovským KV
- Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB)
Západná hranica
- Meta lama: Llama 3.3 70B bf16 s masívnym KV (~15-18 tok/s jednoprúdový motor na 4x L40); Llama 4 Scout bf16 (~218 GB) s nízkou kapacitou; Llama 4 Maverick 400B/17B Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 GB) pohodlné; Mistral Small 3 viacstreamové
- OpenAI (otvorené váhy): gpt-oss-120b MXFP4 (80 GB) s veľkorysým KV
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 viacero streamov
- Google Gemma 3: 27B multimodálny bf16 – viacero rezidentných prúdov
- Ostatné: Cohere Command R+ 104B Q6 (~85 GB); OLMo 3.1 32B; Reka Flash 3 21B; IBM Granite 4.0 H-Small
Modely vizuálno-jazykového vnímania
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodálne viacero streamov; InternVL3 78B bf16; DeepSeek-VL2 s plným rozsahom.
Generovanie obrazu
FLUX.1 [dev] / [shnell] bf16 so súbežným generovaním (~3-4 s na obrázok 1024x1024 na L40); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 x 2-3 súbežné; HunyuanImage-2.1 bf16 (~34 GB) viacstreamový; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16 (~80 GB); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generovanie videa
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 duálny expert s plným kontextom; Wan 2.2 TI2V-5B rýchla cesta; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB) viacstreamový prenos; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Reč / TTS
- ASR: Whisper v3 veľký / turbo (~50x v reálnom čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilný zvuk otvorený; Step-Audio-EditX
- V reálnom čase / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Poskytovanie viacerých modelov / viacerých nájomníkov
- Podniková produkčná LLM brána — Qwen3-235B Q4 alebo GLM-4.5/4.6 Q4 obsluhujúca 16 – 32 súbežných používateľov s prísnou SLA
- Zmiešaný rezidentný stack: 235B MoE + FLUX.1 + Whisper-turbo + Moshi s rozdelenou VRAM a ochranou ECC
- Živé video + kanál AI — hardvérové enkodéry NVENC/NVDEC streamujú 6-8 paralelných kanálov titulkov + kanálov moderovania
- Multi-tenant RAG — embedder na strane dotazu + čítačka 70B + reranker s latenciou P99 pod sekundu
Cieľové pracovné zaťaženia
- 24/7 produkčná inferencia LLM v 192 GB poole (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
- Podnikové multi-tenantské služby s prísnym SLA – spoľahlivosť ECC počas dlhých období
- Súbežné poskytovanie RAG + vektorovej databázy s vysokokvalitnými vyhľadávacími modelmi
- Kanál umelej inteligencie pre médiá/video — hardvérová cesta NVENC/NVDEC, vykresľovanie VFX, prepis/preklad
- Nasadenia v dátových centrách s tichou prevádzkou – pasívne karty, nízky akustický profil v blízkosti kancelárskych priestorov
Meraný výkon
Publikované referencie | Technický list NVIDIA L40 + komunitné benchmarky
| mierka | Výsledok |
|---|---|
| INT8 TOPS na kartu (údajový list NVIDIA) | 362 TOPS |
| Agregát INT8 TOPS (4 karty) | 1 448 TOPOV |
| VRAM na kartu | 48 GB ECC GDDR6, šírka pásma 864 GB/s |
| Lama 3.3 70B Q6 cez vLLM (komunita) | 30 – 50 tok/s jeden prúd, 150+ tok/s dávka-16 |
| FLUX.1 [vývoj] bf16 na L40 (komunitný) | ~3-4 s na obrázok s rozlíšením 1024x1024 |
| NVENC / NVDEC | Hardvérové enkodéry Gen-8 na čipe (kanál video AI) |
Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.
Nie ideálne pre
- Trénovanie veľkých modelov od začiatku (bez NVLink, obmedzené výpočty tenzorov FP8)
- Odhad rozpočtu pre jedného používateľa (4x L4 alebo 2x L40 je podstatne lacnejšie)
- Hustá bf16 70B pri veľmi dlhom kontexte na jednom modeli — uprednostňujem 2x RTX Pro 6000 Server Edition (rovnaký 192 GB pool, menšie TP režijné náklady)
Záruka a dodacia lehota
3-ročná záruka NVIDIA OEM na L40 + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- Rozšírte RAM na 512 GB (pridajte 4x 64 GB DDR4 – štyri sloty DIMM sú stále voľné)
- 4 TB NVMe pre prípravu knižnice modelov
- Plná 24U racková skriňa so spravovaným PDU + online UPS 5 kVA
zdieľam
