Preskočiť na informácie o produkte
1 of 7

Kentino sro

K-AI 192 Rím L40 1448TOPS — 4× NVIDIA L40 — EPYC Miláno

K-AI 192 Rím L40 1448TOPS — 4× NVIDIA L40 — EPYC Miláno

Normálna cena EUR € 40.798,00
Normálna cena Zľavnená cena EUR € 40.798,00
ZĽAVA Vypredané
Vrátane daní. Doprava vypočítané pri pokladni.

K-AI 192 Rím L40 1448TOPS

192 GB ECC Enterprise Inference Server
4x NVIDIA L40 pasívny | EPYC Milan | 1 448 TOPS INT8

1 448
INT8 VRCHY
192 GB
ECC VRAM
ECC
úroveň dátového centra
24/7
pasívne chladené

Štyri pasívne karty L40 pre dátové centrá s pamäťou ECC. Rovnaký 192 GB priestor ako 8x RTX 4090 – ale na úrovni dátových centier, s ochranou ECC a zárukou OEM.

4U rackový inferenčný server so štyrmi pasívnymi kartami NVIDIA L40 spojenými so 192 GB ECC VRAM, jedným procesorom AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovaním a duálnym synchronizovaným 2 kW ATX zdrojom. L40 je dátovo orientovaný súrodenec RTX 4090 – pasívne chladený, vybavený ECC, hardvérové ​​​​enkodéry NVENC/NVDEC na čipe a 3-ročná záruka NVIDIA OEM. Spúšťa vLLM, SGLang, llama.cpp, Triton a TensorRT-LLM ihneď po vybalení.

technické vybavenie

Zložka detail
GPU 4x NVIDIA L40 48 GB ECC GDDR6 (Ada Lovelace, pasívna, 300 W, dvojslotová, PCIe 4.0 x16)
fond VRAM 192 GB ECC na 4 kartách (bez NVLink na L40)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj Duálny 2 kW ATX zdroj so synchronizačným káblom
Podvozok 4U rackový systém s prúdením vzduchu smerom spredu dozadu
Chladenie Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 4 x 300 W = 1 200 W
  • Celkový výkon systému pri plnom zaťažení: ~1 525 W
  • Celkový výkon zdroja: 4 000 W (duálny 2 kW synchronizovaný) — 61.9 % rezerva
  • Duálny zdroj PSU pre rozdelené napájanie a podporu N+1

Topológia jazdných pruhov

PCIe Gen4 x16 na kartu (L40 je natívna Gen4). Priame pripojenie root-complex z jednej EPYC – žiadny prepínač PCIe. Žiadny NVLink – prevádzka medzi GPU prebieha cez PCIe peer-to-peer. Zostávajú tri sloty x16 pre sieťovú kartu/rozšírenie úložiska.

Čo môžete spustiť

Vďaka 192 GB ECC VRAM na 4 dátových kartách tento server v 4. štvrťroku zvláda viac ako 200 miliárd MoE na hranici, poskytuje podnikové multitenantské služby s prísnou SLA a poskytuje nepretržitú produkčnú inferenciu bez posunu bitov súvisiaceho s ECC.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlhým kontextom — konfigurácia Hero (~12-18 tok/s jeden stream cez 4x L40); Qwen3-Coder-480B-A35B Q2 (~160 GB, tesné); Qwen3.5-122B-A10B fp8 (~75 GB) s obrovským KV; Qwen3-32B hustý bf16 s viacerými súbežnými streammi
  • DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 Q2 (~215 GB s menším únikom RAM); DeepSeek-R2 32B — 4 súbežné streamy, jeden na kartu
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) – ideálna pamäte pre túto úroveň; GLM-4.5-Air 106B/12B fp8 alebo bf16
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 (~80 GB) s obrovským KV
  • Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB)

Západná hranica

  • Meta lama: Llama 3.3 70B bf16 s masívnym KV (~15-18 tok/s jednoprúdový motor na 4x L40); Llama 4 Scout bf16 (~218 GB) s nízkou kapacitou; Llama 4 Maverick 400B/17B Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 GB) pohodlné; Mistral Small 3 viacstreamové
  • OpenAI (otvorené váhy): gpt-oss-120b MXFP4 (80 GB) s veľkorysým KV
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 viacero streamov
  • Google Gemma 3: 27B multimodálny bf16 – viacero rezidentných prúdov
  • Ostatné: Cohere Command R+ 104B Q6 (~85 GB); OLMo 3.1 32B; Reka Flash 3 21B; IBM Granite 4.0 H-Small

Modely vizuálno-jazykového vnímania

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodálne viacero streamov; InternVL3 78B bf16; DeepSeek-VL2 s plným rozsahom.

Generovanie obrazu

FLUX.1 [dev] / [shnell] bf16 so súbežným generovaním (~3-4 s na obrázok 1024x1024 na L40); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 x 2-3 súbežné; HunyuanImage-2.1 bf16 (~34 GB) viacstreamový; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16 (~80 GB); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 duálny expert s plným kontextom; Wan 2.2 TI2V-5B rýchla cesta; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB) viacstreamový prenos; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

  • ASR: Whisper v3 veľký / turbo (~50x v reálnom čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilný zvuk otvorený; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • Podniková produkčná LLM brána — Qwen3-235B Q4 alebo GLM-4.5/4.6 Q4 obsluhujúca 16 – 32 súbežných používateľov s prísnou SLA
  • Zmiešaný rezidentný stack: 235B MoE + FLUX.1 + Whisper-turbo + Moshi s rozdelenou VRAM a ochranou ECC
  • Živé video + kanál AI — hardvérové ​​​​enkodéry NVENC/NVDEC streamujú 6-8 paralelných kanálov titulkov + kanálov moderovania
  • Multi-tenant RAG — embedder na strane dotazu + čítačka 70B + reranker s latenciou P99 pod sekundu

Cieľové pracovné zaťaženia

  • 24/7 produkčná inferencia LLM v 192 GB poole (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
  • Podnikové multi-tenantské služby s prísnym SLA – spoľahlivosť ECC počas dlhých období
  • Súbežné poskytovanie RAG + vektorovej databázy s vysokokvalitnými vyhľadávacími modelmi
  • Kanál umelej inteligencie pre médiá/video — hardvérová cesta NVENC/NVDEC, vykresľovanie VFX, prepis/preklad
  • Nasadenia v dátových centrách s tichou prevádzkou – pasívne karty, nízky akustický profil v blízkosti kancelárskych priestorov

Meraný výkon

Publikované referencie | Technický list NVIDIA L40 + komunitné benchmarky

mierka Výsledok
INT8 TOPS na kartu (údajový list NVIDIA) 362 TOPS
Agregát INT8 TOPS (4 karty) 1 448 TOPOV
VRAM na kartu 48 GB ECC GDDR6, šírka pásma 864 GB/s
Lama 3.3 70B Q6 cez vLLM (komunita) 30 – 50 tok/s jeden prúd, 150+ tok/s dávka-16
FLUX.1 [vývoj] bf16 na L40 (komunitný) ~3-4 s na obrázok s rozlíšením 1024x1024
NVENC / NVDEC Hardvérové ​​​​enkodéry Gen-8 na čipe (kanál video AI)

Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.

Nie ideálne pre

  • Trénovanie veľkých modelov od začiatku (bez NVLink, obmedzené výpočty tenzorov FP8)
  • Odhad rozpočtu pre jedného používateľa (4x L4 alebo 2x L40 je podstatne lacnejšie)
  • Hustá bf16 70B pri veľmi dlhom kontexte na jednom modeli — uprednostňujem 2x RTX Pro 6000 Server Edition (rovnaký 192 GB pool, menšie TP režijné náklady)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

3-ročná záruka NVIDIA OEM na L40 + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Rozšírte RAM na 512 GB (pridajte 4x 64 GB DDR4 – štyri sloty DIMM sú stále voľné)
  • 4 TB NVMe pre prípravu knižnice modelov
  • Plná 24U racková skriňa so spravovaným PDU + online UPS 5 kVA
Zobraziť všetky podrobnosti