TurboQuant: Čítanie prielomu v kompresii vyrovnávacej pamäte KV
zdieľam
Čas čítania: 10 minút | Ako 3-bitová kompresia od spoločnosti Google zlacňuje dlhokontextové LLM a čo nám to hovorí o nasledujúcich 18 mesiacoch inferencie umelej inteligencie
V každej dlhej konverzácii s rozsiahlym jazykovým modelom sa skrýva tichý problém, a to je dôvod, prečo sú tieto konverzácie drahé. Nazýva sa to vyrovnávacia pamäť KV a pri dlhých kontextoch môže spotrebovať viac pamäte ako samotný model. 24. marca tím z Google Research publikoval... TurboQuant, ktorá komprimuje túto vyrovnávaciu pamäť na tri bity na hodnotu bez merateľnej straty presnosti a bez jemného doladenia. Šesťkrát menej pamäte. Až osemkrát rýchlejšia pozornosť na H100. Stojí za to to správne pochopiť, pretože kompresia vyrovnávacej pamäte KV je v súčasnosti jedným z najvýraznejších problémov v nasadenej umelej inteligencii a TurboQuant je zatiaľ najjasnejším verejným signálom, že táto oblasť sa zmenila na novú úroveň.
Riadim Kentino. Súčasťou toho je aj pozorné čítanie článkov, ako je tento, aby naši zákazníci – ťažiari, stavitelia, zvedaví Európania sledujúci umelú inteligenciu a kryptomeny – nemuseli robiť nič iné. Tento článok je mojím pokusom vysvetliť, čo TurboQuant vlastne robí, ako zapadá do širšej vlny výskumu kompresie KV vyrovnávacej pamäte v rokoch 2025 – 2026 a čo by mal rozumný človek očakávať od nasledujúcich osemnástich mesiacov.
Problém s vyrovnávacou pamäťou KV, úprimne povedané
Keď transformátor generuje text, každý nový token sa stará o každý predchádzajúci token. Aby sa predišlo prepočítavaniu tenzorov kľúčov a hodnôt pre tieto staršie tokeny v každom kroku, model ich ukladá. Toto úložisko sa nazýva vyrovnávacia pamäť KV.
Vyrovnávacia pamäť rastie lineárne s dĺžkou kontextu. Zdvojnásobte konverzáciu, zdvojnásobte vyrovnávaciu pamäť. Pre stredne veľký 8B model s kontextom so 128k tokenov v FP16, vyrovnávacia pamäť KV môže ľahko dosiahnuť desiatky gigabajtov pre jednu reláciu. Váhy môžu byť šestnásť. Vyrovnávacia pamäť ich zatieňuje.
Z toho vyplývajú tri praktické dôsledky.
Po prvé, dlhodobá inferencia je viazaná na pamäť skôr ako na výpočtový výkon. VRAM vám dôjde dávno predtým, ako vám dôjdu FLOPy.
Po druhé, náklady na poskytovanie služieb sa výrazne zvyšujú. Každý súbežný používateľ potrebuje vlastnú vyrovnávaciu pamäť. Grafický procesor, ktorý by inak dokázal spracovať päťdesiat krátkych konverzácií, by mohol spracovať päť dlhých.
Po tretie, inferencia na zariadení a na okraji siete zostáva mimo dosahu modelov, ktoré by tam skutočne boli užitočné, pretože vyrovnávacia pamäť, nie váhy, sa odmieta prispôsobiť.
Dobrá kompresia vyrovnávacej pamäte KV – teda agresívna, lacná a bez zníženia kvality výstupu – preto nie je malá optimalizácia. Mení, ktoré pracovné zaťaženia sú životaschopné a ktoré nie. To je problém, ktorý TurboQuant rieši.
Čo TurboQuant vlastne robí
TurboQuant je dvojstupňový algoritmus. Obe fázy sú bez trénovania a bez ohľadu na dáta, čo znamená žiadne jemné doladenie, žiadny kalibračný súbor údajov, žiadne ladenie pre jednotlivé modely. Použijete ho a funguje. Úprimne povedané, to je dôležitejšie ako kompresný pomer, pretože práve to umožňuje metóde bez problémov začleniť ju do existujúceho inferenčného zásobníka.
Prvá fáza: PolarQuant
Prvou fázou je PolarQuant, samostatný článok tej istej skupiny (Zandieh, Mirrokni a kol., AISTATS 2026). Ide skôr o štrukturálnu než štatistickú myšlienku.
Kvantovanie vysokorozmerných vektorov v karteziánskych súradniciach je nepraktické. Prirodzený krok – normalizácia na jednotkovú sféru a následná kvantizácia smeru – sa ukazuje ako nákladný, pretože výpočet normy každého vektora je úzkym hrdlom, ktorému ste sa snažili vyhnúť. Skoršie metódy túto cenu platili a stále strácali presnosť pri nízkych bitových šírkach.
PolarQuant robí dve veci, aby sa vyhol tejto pasci. Najprv aplikuje náhodnú rotáciu, ktorá, trochu neintuitívne, robí geometriu rozloženia vektorov predvídateľnejšou a zvládnuteľnejšou. Potom ich prevedie na polárne súradnice – polomer pre veľkosť, uhol pre smer – a tie mapuje na kruhovú mriežku, ktorú je možné kvantizovať bez kroku normalizácie. Výsledkom je čistá reprezentácia každého vektora s nízkym počtom bitov, ktorá zachováva jeho základnú geometriu.
Druhá fáza: QJL
Samotný PolarQuant zanecháva zvyškovú chybu. Druhá fáza, kvantizovaná Johnson-Lindenstraussova chyba (QJL), ju opravuje o jeden bit navyše na hodnotu.
Johnsonova-Lindenstraussova transformácia je klasický výsledok: pomocou náhodného lineárneho zobrazenia je možné premietať vysokorozmerné vektory do oveľa nižšierozmerného priestoru a približne zachovať párové vzdialenosti. QJL to posúva ďalej tým, že zachováva iba znamienkový bit každej premietnutej súradnice – plus jeden, mínus jeden, nič iné. Žiadne úložné režijné náklady okrem samotného bitu.
QJL matematicky poskytuje nestranný odhad skóre pozornosti. Opravuje rezíduum z PolarQuantu bez opätovného zavedenia skreslenia, ktorým trpia naivné nízkobitové schémy. To je ten trik. Jeden starostlivo vybraný bit znamienka stačí na vyčistenie chyby prvej fázy.
Čísla
Kombinácia týchto dvoch stupňov dosahuje tri bity na hodnotu, šesťkrát menší než FP16 Základná hodnota. Na NVIDIA H100 beží výpočet logitového ukazovateľa pozornosti až osemkrát rýchlejšie pri 4-bitovej pamäti oproti 32-bitovej. Spoločnosť Google testovala metódy Gemma, Mistral a Llama-3.1-8B-Instruct v testoch LongBench, Needle In A Haystack, ZeroSCROLLS, RULER a L-Eval. Presnosť bola zachovaná vo všetkých piatich dlhodobých benchmarkoch. Vedľajší test vektorového vyhľadávania na GloVe-200 ukázal lepšiu úplnosť 1@k aj v porovnaní s základnými hodnotami PQ a RabbiQ, čo naznačuje, že metóda sa dá zovšeobecniť aj mimo vyrovnávacích pamätí KV.
| metrický | Hodnota |
|---|---|
| Bity na hodnotu uloženú v vyrovnávacej pamäti | 3 bitov |
| Zníženie vyrovnávacej pamäte KV | 6 × |
| Zrýchlenie pozornosti H100 (4-bitové oproti 32-bitovým) | až k 8 × |
| Vyžaduje sa jemné doladenie | nikto |
| Požadované kalibračné údaje | nikto |
| Strata presnosti merania | Nula cez LongBench, NIAH, ZeroSCROLLS, RULER, L-Eval |
| Testované modely | Gemma, Mistral, Llama-3.1-8B-Inštrukt |
Celý zápis je na Blog o výskume spoločnosti GoogleTurboQuant bude predstavený na ICLR 2026 v Rio de Janeiro.
Širšia vlna
TurboQuant nie je sám. Je to najvýznamnejší nedávny príspevok v rýchlo sa rozvíjajúcej oblasti výskumu a jeho čítanie bez kontextu preháňa jeho novosť. Niekoľko ďalších metód z konca roka 2025 a začiatku roka 2026 sa zaoberá rovnakým úzkym hrdlom z rôznych uhlov pohľadu.
| Metóda | Miesto | Prístup | Výsledok v titulku |
|---|---|---|---|
| TurboQuant | ICLR 2026 | PolarQuant + QJL, online inferencia | 3 bitov, 6 × pamäť, až 8 × zrýchlenie pozornosti, nulová strata presnosti |
| KVTC (NVIDIA) | ICLR 2026 | Transformačné kódovanie — PCA + adaptívna kvantizácia + entropické kódovanie | Kompresia až 20× pre offline ukladanie do vyrovnávacej pamäte a jej opätovné použitie |
| ChunkKV | OpenReview, september 2025 | Jednotka kompresie sémantických blokov | Presnosť až +8.7 % pri rovnakom kompresnom pomere |
| PM-KVQ | 2025 | Progresívna zmiešaná presnosť pre modely uvažovania | 2.73–5.18× priepustnosť vs. FP16, +8 % v porovnaní s kritériami uvažovania |
| KVPress (NVIDIA) | Otvorený rámec | Posilňovače benchmarkingu a nasadenia | Umožňuje odborníkom testovať tieto metódy vo veľkom meradle |
Každý z nich sa zameriava na inú oblasť. KVTC je určený na opätovné použitie offline – ukladanie vyrovnávacej pamäte z jednej konverzácie a jej načítanie do inej, kde si môžete dovoliť náročnejšie kódovanie výmenou za oveľa vyššiu kompresiu. ChunkKV je určený pre prípady, keď potrebujete agresívne komprimovať, ale zachovať sémantický význam, čo je dôležité pre úlohy, kde strata tokenu bolí viac ako strata presnosti číslice. PM-KVQ je vyladený na dlhé reťazce myšlienok, ktoré produkujú modely uvažovania. KVPress je nástroj, ktorý nám ostatným umožňuje úprimne porovnať všetky tieto úlohy.
Výrazným prínosom TurboQuantu je kombinácia operácií bez nutnosti trénovania, vhodnosti pre online inferenciu a preukázateľne nestranného odhadu. Je to ten, ktorý sa s najväčšou pravdepodobnosťou dostane do produkčných rámcov ako prvý, práve preto, že od operátora modelu nič nepožaduje.
Čo sa tým odomkne
Keď odstúpime od papiera a zamyslíme sa nad tým, kam to povedie: praktické účinky je ľahšie pomenovať, ako ich zmerať.
Dlhodobá inferencia sa stáva podstatne lacnejšou. Ak je vaša vyrovnávacia pamäť KV šesťkrát menšia, môžete na rovnakej GPU dávkovo obsluhovať viac používateľov alebo obsluhovať dlhšie kontexty s rovnakým rozpočtom, alebo oboje. Každý, kto prevádzkuje inferenčnú službu, to pociťuje na svojich ziskoch do štvrtiny integrácie.
Nasadenie na okraji siete sa stáva realizovateľným pre triedy modelov, ktoré boli predtým mimo dosahu. 8B model s dlhým kontextom na grafickej karte pracovnej stanice alebo 3B model na notebooku sa presúva z „sotva možného“ na „rutinný“, keď sa vyrovnávacia pamäť zmenší o tento faktor. Podobný nárast zaznamenáva aj lokálne nasadenie pre spoločnosti, ktoré nemôžu odosielať údaje do cloudových API – právna, lekárska, priemyselná telemetria.
Príbeh hardvéru nasleduje priamo a tu prestáva byť abstraktný. Kompresia ako TurboQuant nemení, ktoré GPU existujú; mení, ktoré pracovné zaťaženia fit – a momentálne sú pracovné zaťaženia, ktoré ľudia skutočne chcú prevádzkovať lokálne, čínske modely s otvorenými váhami na hraniciach, ktoré potichu obsadili miesto v SOTA do prvého štvrťroka 2026.
Aktuálnu zostavu stojí za to explicitne vymenovať, pretože práve na to sa nás zákazníci pýtajú. Kimi K2.5 od Moonshot AI — 1T celkové parametre, 32B aktívny, MH SR, 256K kontext, licencia MIT — vydaná 27. januára a vedie v kódových a matematických benchmarkoch medzi otvorenými váhami. GLM-5 zo Z.ai — Celkom 744 miliárd / 40B aktívny, 204K kontext, licencované MIT – momentálne na vrchole indexu inteligencie s otvorenými váhami a overené SWE-bench. MiniMax M2.5 - Celkom 229 miliárd / 10B aktívny, 200K kontext — vydané 12. februára, agresívna cena, viac ako 80 % SWE-benchmark. Qwen3-Coder-Next z Alibaby — Celkom 80 miliárd / 3B aktívny, 256K kontext natívne, rozšíriteľné na 1M s YaRN — plus širšia rodina Qwen3 z hustej 0.8B – 27B cez 397B-A17B MoE. Všetky otvorené hmotnosti. Všetko odoslané ešte dnes.
Staviame stroje v Kentino konkrétne pre túto pracovnú záťaž, takže dovoľte mi byť konkrétny, čo sa týka matematiky. Náš vlajkový inferenčný server je 4× NVIDIA RTX 4090 stavať — 96 GB združenej VRAM, AMD EPYC 7542 na ASRock Rack ROMED8-2T, 256 GB of DDR4-2666 ECC RDIMM, 2 TB NVMe, dvojaký 2 kW zdroje, v 24U stojanNad tým staviame 4× RTX 5090 a 8× RTX 5090 konfigurácie (128 GB a 256 GB združená VRAM) a na úrovni dátového centra 4× L40 / L40S (192 GB spojené ECC) pre trvalé zaťaženie podnikovej triedy a nepretržitú produkčnú prevádzku.
To, čo TurboQuant na tomto obrázku mení, je člen KV cache. Moderné modely MoE už používajú komprimovanú pozornosť (MLAlatentná pozornosť v štýle Kimiho, GQA v Qwen3), takže ich KV cache na token je na začiatku menšia ako staršie čísla triedy Llama. Použite TurboQuant navrch a získate ďalší ~6 ×Praktickým efektom je, že kontextové okno, ktoré dané pole môže skutočne slúžiť – na rozdiel od reklamy – zmysluplne skáče. závažia sa nepohol. Úzke hrdlo áno.
| Zostavenie servera Kentino | Združená VRAM | Model, ktorý pohodlne sedí | S kompresiou TurboQuant KV |
|---|---|---|---|
| 4× RTX 4090 (AMD EPYC 7542, 256 GB ECC) | 96 GB | Qwen3-Coder-Next Celkom 80 miliárd (FP8), Qwen3 hustá 27B (FP16) | Qwen3-Coder-Next @ 256K kontext natívny jeden používateľ alebo 80B pri 128K pre ~3-4 súbežných používateľov |
| 4× RTX 5090 | 128 GB | Qwen3-Coder-Next s headroom, Qwen3 32B (FP16), trieda MoE 100B (INT4) | Qwen3-Coder-Next @ 1M kontext prostredníctvom YaRNalebo 80B pri 256K súbežne |
| 8× RTX 5090 | 256 GB | MiniMax M2.5 (FP8, ~230 GB), Qwen3 397B-A17B (INT4), GLM-5 (INT4) | MiniMax M2.5 pri plnom nabití 200K kontext produkčné obsluhovanie alebo Qwen3 397B pri 128K súbežne |
| 4× L40 / L40S | 192 GB ECC | MiniMax M2.5 (INT4), produkcia Qwen3-Coder-Next 24/7 | Poskytovanie služieb na podnikovej úrovni s ECC pri dlhodobom kontexte, trvalé zaťaženie |
Dve úprimné výhrady. Po prvé, Kimi K2.5 a GLM-5 plne FP8 (1T a Celkom 744 miliárd váhy) stále prevyšujú to, čo tieto políčka obsahujú – pre tých, ktorí sa pozerajú na klaster alebo akceptujú agresívne INT4 kvantizácia. Po druhé, presné limity tokenov závisia od veľkosti dávky, konfigurácie špecifickej pozornosti modelu a rámca (vLLM, SGLang, TensorRT-LLM všetky implementujú nízkobitový KV odlišne). Ale smer je ten, na ktorom záleží: a 4× RTX 4090 krabica, ktorá pred rokom dávala zmysel pre modely s hustotou 13B, je teraz tou správnou odpoveďou pre Qwen3-Coder-Next v plnej miere 256K kontext. 4× RTX 5090 spracováva 80B aktívny-triedny kódovací model pohodlne s priestorom pre súbežných používateľov. 8× RTX 5090 or 4× L40S otvára sa MiniMax M2.5 a väčšie varianty Qwen3 MoE v produkčnom meradle. Hardvér sa nezväčšil; pracovné zaťaženie sa zmenšilo.
A akákoľvek inferenčná záťaž, ktorá beží nepretržite na prevádzkovej telemetrii, má úmerný úžitok. Optimalizácia ťažobnej flotily je jedným z reálnych príkladov: operátori ako OneMiners prevádzkovať systémy efektívnosti riadené umelou inteligenciou na tisíckach ASIC a inferenčná vrstva pod týmito systémami sa priamo škáluje podľa toho, koľko kontextu dokáže každý model lacno uniesť. Táto výskumná trieda netransformuje takéto pracovné zaťaženie zo dňa na deň, ale posúva krivku toho, čo je dostupné.
Úprimná predpoveď je postupná. A 6 × Zníženie pamäte na jednom úzkom mieste nevytvára nový svet. Vytvára o niečo lacnejšiu, o niečo dlhšie kontextovú a o niečo lepšie nasaditeľnú verziu sveta, ktorý už máme. To je stále veľká úspora peňazí a inžinierstva, agregovaná v celom odvetví.
Čo sledovať v rokoch 2026 – 2027
Niekoľko konkrétnych vecí, zhruba v poradí podľa pravdepodobnosti.
Integrácia rámca. vLLM, TensorRT-LLMa SGLang v priebehu niekoľkých mesiacov si osvojí metódy typu TurboQuant, pravdepodobne prostredníctvom KVPress ako vrstvu porovnávania. Implementácia Tritonu s otvoreným zdrojovým kódom, ktorú publikoval tím Google, to robí takmer mechanickým.
Podpora na úrovni hardvéru. Spoločnosť NVIDIA naznačila záujem o nízkobitové primitívy pozornosti prostredníctvom KVTC aj KVPress. Očakávajte, že nástroje generácie Blackwell budú považovať 3-4-bitové KV formáty skôr za prvotriedne, než za experimentálne.
Konsolidácia metód. Päť vyššie uvedených prístupov rieši prekrývajúce sa problémy. Pravdepodobným konečným cieľom je zjednotený zásobník – geometrická kompresia v štýle PolarQuant pre online pozornosť, entropické kódovanie v štýle KVTC pre offline ukladanie a sémantické zoskupovanie v štýle ChunkKV ako front-end. Žiaden samostatný článok sa tam nedostane; zásobník sa vytvára počas roka integračnej práce.
Skutočné zníženie nákladov na servírovanie. Do konca roka 2026 by mali byť náklady na služby dlhodobej inferencie viditeľne nižšie ako dnes, pričom väčšina zisku by mala pochádzať z kompresie a nie z nového kremíka. To je najčistejší spôsob, ako predpovedať úspech tejto oblasti práce.
Zavrieť
TurboQuant je skutočný pokrok v riešení skutočného úzkeho hrdla a prišiel v rámci výskumnej vlny, ktorá rieši problém z viacerých uhlov pohľadu naraz. Hlavné čísla sú samy o sebe pôsobivé – tri bity, šesťnásobok, osemnásobok – ale dôležitejšou vlastnosťou je, že nevyžaduje nič od operátora modelu. Nasadzujú sa metódy bez trénovania, ktoré nepotrebujú dáta.
Ak spúšťate dlhodobú inferenciu v akomkoľvek meradle, oplatí sa ju sledovať. Ak tak neurobíte, stále sa oplatí jej porozumieť, pretože ekonomiku modelov, ktoré nakoniec použijete, potichu určujú články, ako je tento.