Automatické označovanie prostredia: Modely sveta riadené VLM pre roboty
zdieľam
V roku 2023 si dôveryhodná dátová sada o domácom robotovi vyžadovala tisíc človekohodín ľudských anotátorov, ktorí kreslili rámčeky okolo hrnčekov a stoličiek. V roku 2026 sa tá istá dátová sada vytvorí cez noc pomocou zásobníka modelov vizuálneho jazyka bežiacich na jednom 8-GPU serveri. Človek je stále v procese, ale iba ako recenzent vzorkovanej úrovne, nie ako primárny označovač. Tento článok je o tejto zmene – čo v skutočnosti znamená „automatické označovanie“ pre dnešného robota, ako vyzerá proces, kde sa prerušuje a prečo je výpočtová náročnosť tou časťou, ktorá rozhoduje o tom, či to váš tím vôbec dokáže.
Toto je súčasť sekcie Robotika na Kentino Wiki. Obsahuje krížové odkazy. R08 (argument latencie pre vyhradené výpočty na okraji) a I01 (architektúra edge AI s lokálnou inferenciou). Budúci I05 prejde referenčnou zostavou s rozmermi presne pre túto pracovnú záťaž.
Čo znamená automatické označovanie v robotike
Klasický systém počítačového videnia predpokladal, že označenia sú vzácne a drahé. Ohraničujúci rámček okolo „pohára“ stál človeka desať sekúnd a niekoľko centov. Segmentačná maska s presnosťou na pixel stála minútu a dolár. Maska po jednotlivých snímkach v tridsaťsekundovom videoklipe stála cenu malého auta.
Dátové súbory robotiky sú pre tento model patologické. Jeden štvornohý jedinec pri tridsaťminútovom mapovaní pri 30 snímkach za sekundu vyprodukuje 54 000 snímok. Televízna relácia humanoidu počas pracovného dňa vyprodukuje stovky tisíc. Každý snímok v ideálnom prípade potrebuje:
- Ohraničujúce rámčeky objektov (otvorená slovná zásoba, nielen 80 tried COCO)
- Masky segmentácie inštancií (aby politika mohla uvažovať o oblastiach, ktoré je možné pochopiť)
- Popis scény v prirodzenom jazyku (aby sa na ňom dala vytvoriť VLA)
- Sledovaná identita naprieč snímkami (takže „červený hrnček“ zostáva rovnakým hrnčekom)
- Voliteľné: 3D odhady polohy, spojené s hĺbkou alebo LiDAR
Ekonomika ľudského anotátora pre ktorýkoľvek z týchto faktorov zaniká pri prvých tisícich snímkach. „Automatické označovanie“ je zastrešujúci termín pre používanie základných modelov – VLM, detektorov otvorenej slovnej zásoby, segmentátorov s možnosťou vyvolania promptov – na vytváranie týchto označení rýchlosťou inferencie, a nie rýchlosťou kliknutia osoby.
Posun od roku 2023 nie je filozofický, je mechanický. V tom istom osemnásťmesačnom období sa zmenili tri veci:
- Detekcia otvorenej slovnej zásoby sa stala použiteľnou. Uzemnenie DINO, OWLv2 a Florence-2 sa medzi polovicou roka 2024 a koncom roka 2025 zmenilo z „zaujímavej demoverzie“ na „produkčnú úroveň pre ~80 % bežných objektov“.
- Prišla rýchla segmentácia videa. SAM 2 (polovica roka 2024) a teraz SAM 3 (vydaný v novembri 2025) zjednodušili sledovanie masiek vo videu na základe výzvy s podstatným menom. SAM 3 prijíma najmä priamo konceptuálne výzvy – „žltý školský autobus“ – a vracia masky plus stabilné identity.
- VLM boli uzemnené. Qwen2.5-VL (začiatok roka 2025) a následné rodiny Qwen3-VL produkujú ohraničujúce rámčeky na skutočnej pixelovej mriežke v stabilnom formáte JSON. Môžete vyvolať 72B VLM s príkazom „uviesť každý objekt na tomto obrázku ako JSON s ohraničujúcim rámčekom a jednovetným popisom“ a získať späť niečo, čo môžete preniesť do trénovacej slučky.
Súčasný stav techniky v roku 2026 nie je jeden model – je to zložený kanál.
Architektúra potrubia
Zásobník automatického označovania referencií vyzerá takto:
Uložené na lokálny NVMe disk a následne synchronizované so serverom
v: slovník rámčeka + popisu (alebo voľný popis generovaný VLM)
von: ohraničujúce rámčeky + označenia tried na rámec
von: masky pre jednotlivé inštancie, sledovaná identita v celom klipe
v: rám + krabice/masky z etáp 1+2
von: popisky pre jednotlivé snímky, popisky pre jednotlivé objekty, vzťahy medzi objektmi („hrnček NA stole“)
Premietajte popisky do 3D pomocou hĺbky + polohy kamery
Deduplikácia naprieč zobrazeniami, vytvorenie úložiska inštancií objektov
Recenzent opravuje v Roboflow / Labelbox / V7
Korekcie sa spätne prenášajú ako tréningový signál
alebo podmieniť manipulačnú politiku označenými trajektóriami
Šesťstupňový kanál automatického označovania — záznam → uzemnenie → segment → popis → akumulácia → kontrola → vlak
Predtým, ako budeme pokračovať, stojí za zmienku niekoľko vecí.
Po prvé, Fázy 1 a 2 sa často zlúčia do fázy Grounded-SAM 2., otvorený kanál od spoločnosti IDEA-Research, ktorý naraz prepojí Grounding DINO (alebo Florence-2 alebo DINO-X) so systémom SAM 2. Skript automatického označovania v tomto repozitári je kanonická implementácia „políčka a masky z mennej frázy“. S rozhraním konceptuálneho výzvy SAM 3 sa to ešte viac zrúti – zadáte mu slová a dostanete späť sledované masky.
Po druhé, Tretia etapa je najdrahšia a ten, kde je výber modelu najdôležitejší. Model triedy 7B VLM (Qwen2.5-VL 7B, Florence-2 large) síce lacno vytvorí koherentné titulky, ale prehliadne jemné detaily. Model triedy 72B vytvára dramaticky bohatšie popisy, častejšie správne definuje vzťahy a je oveľa užitočnejší pre následné trénovanie VLA – za približne 10-násobok nákladov na snímku.
Po tretie, Keď ľudia v tomto kontexte hovoria „model sveta“, myslia si to práve v štvrtej fáze. Nie je to generatívny video model ako Cosmos Predict. Je to perzistentné, 3D úložisko informácií o tom, „aké objekty existujú v tejto miestnosti, kde sa nachádzajú a ako spolu súvisia“. ConceptGraphs je kanonický recept s otvoreným zdrojovým kódom; OK-Robot predviedol škálovateľnosť na približne 170 úloh typu „pick-and-place“ v desiatich domácnostiach. Model sveta je to, čo robí štítky opakovane použiteľnými: keď sa robot zajtra vráti, nezačína od nuly.
V čom sú VLM dobré a kde zlyhávajú
Úprimná tabuľka, pretože marketingové materiály ku každému z týchto modelov sú zavádzajúce v rôznych smeroch:
| úloha | Kvalita zásobníka VLM (2026) |
|---|---|
| Detekcia bežných objektov (kuchyňa, kancelária) | Výborne — Spomienok na viac ako 90 %, nízke halucinácie |
| Kategórie románov s otvorenou slovnou zásobou | Dobré, ale nerovnomerné – závisí od formulácie |
| Pixelovo presná segmentácia v dobrom boxe | Výborne — SAM 2/3 je v podstate vyriešený |
| Sledovanie identity počas 30-sekundového klipu | Dobrý so SAM 3, priemerný len so SAM 2 |
| Počítanie (koľko šálok je na stole) | chudobný — VLM majú trvalé halucinácie |
| Malé / vzdialené objekty | chudobný — políčka spoľahlivo klesnú pod ~20 px |
| Rýchly pohyb (chápadlo, otočené rameno, spadnutý predmet) | chudobný — rozmazanie pohybom ničí detekciu aj segmentáciu |
| Extrémne svetelné podmienky (oslnenie, slabé svetlo, infračervené žiarenie) | chudobný — distribúcia školení toto nepokrýva |
| Opakujúce sa identické objekty (naukladané krabice) | chudobný — sledovanie identity je zmätené |
| Nové kategórie z úzko špecializovanej priemyselnej oblasti | Zlý — open-vocab je „otvorený“ v rámci ImageNetu |
| Voľný popis scény (jeden odsek) | Výborne — 72B VLM sú tu naozaj dobré |
| Priestorové vzťahy (na, pod, za) | Dobré – Qwen2.5-VL to spoľahlivo zvláda |
Najdôležitejší úprimný hovor: automatické označenia sú hlučné. V literatúre z rokov 2025 – 2026 sa detekcia otvorenej slovnej zásoby v doménach mimo distribúcie pohybuje na úrovni 5 – 15 % halucinácií v závislosti od spôsobu merania. Článok GroundCount zo začiatku roku 2026 uvádza zlepšenie presnosti počítania o 6.6 percentuálneho bodu len pridaním explicitného uzemnenia detektora k VLM – čo znamená, že samotné VLM sa stále podstatne mýlia v počtoch. Nič z toho nie je rozhodujúce, ale znamená to, že čisto nepreskúmaný kanál automatického označovania nie je bezpečný pre bezpečnostne kritické tréningové dáta.
Zmierňujúci účinok, ktorý v praxi skutočne funguje, je dvojstupňové preskúmanie vzorkovania: všetko automaticky označíte a potom na základe signálu neistoty (entropia tokenu VLM, spoľahlivosť detektora, nezhoda medzi viacerými modelmi) vyberiete 1 – 5 % snímok na kontrolu človekom. Kontrolóri vykonajú opravy a tieto opravy sa použijú buď ako priame trénovacie dáta, alebo ako spätná väzba na rekalibráciu prahov spoľahlivosti automatického označovača. Toto je tá istá slučka, na ktorej bol trénovaný samotný Florence-2 – súbor údajov FLD-5B od spoločnosti Microsoft bol vytvorený kaskádovaním špecializovaných modelov a následným vzorkovaním na kontrolu.
Výpočtová stopa – prečo sa to dostáva lokálne
Toto je tá časť, ktorá prekvapuje ľudí, ktorí si tieto čísla nerobili.
Vezmite si reprezentatívny cieľ: jedna hodina robotického záznamu pri 10 snímkach za sekundu zo stereo kamery v rozlíšení 1080p. To je 36 000 snímok. Chcete všetky štyri typy označení: rámčeky, masky, popisky, sledovanú identitu.
Približné náklady na snímku na jednej grafickej karte RTX 5090 (32 GB, Blackwell, ~104 TFLOPS FP16):
| Situácia | Na snímku | 36 000 snímok |
|---|---|---|
| Uzemnenie DINO (malé) | ~30 ms | ~18 min |
| SAM 2 veľký, maska + šírenie | ~25 ms | ~15 min |
| Popisok Qwen2.5-VL 7B | ~250 ms | ~ 2.5 h |
| Popisok Qwen2.5-VL 72B (INT4, dávka) | ~1.5–3 s | ~15–30 hodín |
| Florencia-2 veľká (iba popis) | ~80 ms | ~48 min |
Tieto čísla sú rádové – predpokladajú rozumné dávkovanie, obsluhu vLLM a kvantizáciu FP16/INT4, kde je to vhodné. Samotný SAM 2 beží v pôvodnom benchmarku na A100 s rýchlosťou ~44 fps, takže ~50–60 fps na 5090 je realistických.
Zaujímavou líniou je VLM triedy 72B. Ak chcete podrobné popisy scén pre každý záber z VLM triedy 72B, Nemôžete to urobiť na jednej GPU v reálnom čase. Ty tiež:
- Intenzívne podvzorkovanie – titulkovanie každého 10. snímky, interpolácia zvyšku. Toto v skutočnosti robí väčšina produkčných kanálov.
- Použite menší VLM (trieda 7B – 11B) pre jednotlivé snímky a 72B rezervujte iba pre kľúčové snímky.
- Pridajte do toho viac grafických kariet – v takom prípade sa osem 5090 v jednom šasi stane spodnou hranicou praktického rozsahu.
Celkové náklady na plne automatický záznam s automatickým označovaním jednej hodiny s 10 snímkami za sekundu a 72B v slučke dosahujú približne 4–8 hodín výdrže GPU na spotrebiteľskom kremíku Blackwella šasi 8× 5090 K-AI 256 to dokáže dokončiť za menej ako hodinu s paralelným spracovaním naprieč grafickými procesormi.
A teraz cloudová matematika. Rovnaké zaťaženie na hyperscaleri:
- Výpočet: porovnateľné, možno lacnejšie pri spotových cenách.
- Výstup dát: brutálny. Stereo nahrávka v rozlíšení 1080p pri 10 fps po dobu jednej hodiny má objem približne 30 – 80 GB v surovom formáte, viac, ak si zachováte hĺbku. Uloženie v cloude a stiahnutie štítkov späť stojí centy pri prenose a desiatky dolárov pri prenose za jeden priechod. Článok Robo-DM z Berkeley z roku 2025 to explicitne meral: uloženie 8.9 TB dát Open-X v Google Cloud stojí 172 dolárov mesačne, ale každé úplné stiahnutie stojí 172 – 1 540 dolárov v závislosti od úrovne. Škálujte to na flotilu zariadení, ktorá zaznamenáva stovky hodín týždenne a len samotný výstup prevyšuje amortizáciu kapitálových výdavkov jedného lokálneho servera v priebehu roka.
- Latencia v slučke: dlhá. Zmyslom automatického označovania je uzavretá slučka – dnes zaznamenáš, dnes večer označíš, zajtra doladíš, ráno prenesieš vylepšenú politiku. Cloudová spiatočná cesta pridáva hodiny času nahrávania na typickom laboratórnom uplinku.
- Súkromie: problém. Rovnaký argument o regulovaných údajoch z R08 Platí to aj tu. Nespracované video robota z izby pacienta, výrobnej haly alebo obranného laboratória sa neprenáša do grafického procesora nikoho iného.
Preto každé seriózne robotické laboratórium v roku 2026 vlastní vlastný výpočtový systém s automatickým označovaním. K-AI 256 Turin Dual s 8× RTX 5090 je dimenzovaný takmer presne pre túto pracovnú záťaž – 256 GB systémovej RAM, osem GPU pre paralelné fázy spracovania, NVMe pre horúcu vrstvu datasetu. Konfigurácia 4× RTX Pro 6000 Blackwell je cesta k upgradu, keď chce tím spúšťať 72B v FP16 namiesto INT4 a ponechať viac súbežných modelov rezidentných.
Uzavretá slučka
Dôvod, prečo sa lokálna infraštruktúra vypláca, nie je samotné automatické označovanie – je to slučka, ktorú umožňuje.
Denná uzavretá slučka — záznam → automatické označovanie → kontrola → doladenie → overenie → nasadenie
Toto je slučka, pre ktorú bol navrhnutý recept OpenVLA-OFT (marec 2025): 25 – 50× rýchlejšie jemné doladenie ako v prípade voľného OpenVLA, navrhnuté tak, aby sa zmestili na jeden GPU server triedy pracovnej stanice. FLaRe (ICRA 2025) je analógom posilňovacieho učenia. Práca s kontinuálnym učením na jemnom doladení založenom na adaptéroch (OMLA, LifeLong-RFT) vám umožňuje prispôsobiť sa bez katastrofického zabúdania.
Nič z toho nefunguje pri rýchlosti cloudového obojsmerného prenosu. Slučka je hodnota a slučka vyžaduje, aby sa dáta a výpočty nachádzali v tej istej budove.
Konkrétny príklad – domáci humanoid
Aby sme to konkretizovali, predstavte si najjednoduchší realizovateľný systém automatického označovania pre humanoida, ktorý vykonáva domáce úlohy (vloženie umývačky riadu, skladanie bielizne, vyberanie vecí z označeného koša).
nahrávanie: Humanoid má stereo RGB kamery s frekvenciou 30 fps, náramkové kamery s frekvenciou 15 fps, hĺbku z aktívneho sterea a stavy kĺbov pri 200 Hz. Dvojhodinová relácia vyprodukuje ~250 GB raw na integrovanom NVMe.
synchronizácia: Na konci relácie robot nahrá dáta na server K-AI v laboratóriu cez káblové pripojenie alebo Wi-Fi 6E, približne 5–10 minút pre 250 GB.
Fáza 1+2 (Uzemnený-SAM 2): Detekcia s otvorenou slovnou zásobou s doménovou slovnou zásobou približne 200 bežných podstatných mien („hrnček“, „stierka“, „kôš na bielizeň“, „modrá utierka na riad“...) plus vlastné koncové efektory agenta. SAM 2 šíri masky prostredníctvom klipov. Nástenné hodiny na 8× 5090: ~45 minút.
3. štádium (Qwen2.5-VL): 7B VLM v každom snímku pre krátky popis, 72B v každom desiatom snímku pre bohatší popis a vzťahy medzi objektmi. Nástenné hodiny: ~3 hodiny.
Fáza 4 (graf scény): Akumulátor v štýle ConceptGraphs vytvára perzistentný 3D graf scény bytu. Do konca týždňa je každý objekt, ktorý robot videl, v grafe uložený so stabilným ID, jazykovými deskriptormi a hrubou 3D pozíciou. Nástenné hodiny: niekoľko minút na reláciu, amortizované.
Fáza 5 (prehľad): Interný nástroj identifikuje snímky, kde je spoľahlivosť triedy VLM < 0.6 alebo kde sa 1. a 3. stupeň nezhodujú v triede. Kontrolór spracuje ~500 snímok za hodinu. Pri 5 % vzorkovacej frekvencii počas dvojhodinovej relácie je to zhruba hodina ľudského času za deň.
6. fáza (tréning): Opravené označenia slúžia na jemné doladenie VLA v štýle OFT. Server K-AI to spúšťa cez noc na rovnakom hardvéri, ktorý vykonal automatické označovanie – pracovné zaťaženia sú sekvenčné, nie súbežné.
Toto nie je výskumný myšlienkový experiment. Toto je to, čo 1X, Skild AI a publikované skupiny používajúce OpenVLA v skutočnosti robia v roku 2026, modulo interných variácií. Kanál je otvorený, modely sú otvorené, úzkym hrdlom je výpočtové a inžinierske úsilie – nie prístup k algoritmom.
Čestné limity
Tri veci, ktoré by tento článok nemal nechať bez povšimnutia:
Halucinácie sú skutočné a pretrvávajúce. Ani pri dvojstupňovom preskúmaní nemôžete dôverovať neprevereným automatickým označeniam pre bezpečnostne kritické školenia (vyhýbanie sa kolíziám, rozhodovanie o kontakte, čokoľvek, kde by nesprávne označenie mohlo poškodiť robota alebo osobu). Používajte ich na školenie schopností, nie na školenie bezpečnosti. Z bezpečnostných dôvodov stále chcete spravované údaje.
Uzemnenie mimo rozvodnej siete sa rýchlo opotrebováva. VLM vyškolený primárne na webových obrázkoch bude vynikajúci v kuchyniach a kanceláriách a výrazne horší v CNC dielni alebo na nemocničnom oddelení. Riešením je doladenie samotného automatického označovača špecifického pre danú doménu, čo má svoje vlastné náklady.
Svetový model je krehký voči zmenám prostredia. ConceptGraphs a priatelia predpokladajú, že svet je medzi návštevami zhruba statický. Ak presuniete nábytok, graf scény bude potrebné prestavať alebo agresívne prevalidovať. Na tomto sa aktívne pracuje (online grafy scén s otvorenou slovnou zásobou, článok Naver Labs z roku 2025, okrem iného), ale model sveta berte ako poradný, nie smerodajný.
Výpočtové odhady sú tu približné. Všetky čísla na snímku závisia od stratégie dávkovania, kvantizácie, dĺžky výzvy a rozlíšenia obrazu. Tabuľku považujte za tabuľku rádu veľkosti. Rád veľkosti je to, čo je dôležité pre dimenzovanie poľa.
Čo urobiť ďalej
Ak zvažujete, či postaviť zásobník na automatické označovanie:
- Rozhodnite sa, čo vlastne potrebujete označené. Samotné boxy a masky – Grounded-SAM 2 na jednej GPU úplne postačí. Popisky a relácie – potrebujete minimálne 7B–11B VLM. Bohaté popisy pre tréning VLA – potrebujete triedu 72B a musíte si poctivo rozvrhnúť hodiny na GPU.
- Auditujte svoju doménu. Sú objekty, ktoré vás zaujímajú, súčasťou trénovacej distribúcie detektorov s otvorenou slovnou zásobou? Ak pracujete prevažne v kuchyniach, kanceláriách alebo skladoch – áno. V priemyselných alebo lekárskych špecializovaných oblastiach – naplánujte si jemné doladenie automatického označovania, než mu budete dôverovať.
- Naplánujte si úroveň kontroly od prvého dňa. Vyberte si nástroj (Roboflow, Labelbox, V7 alebo iný domáci nástroj s neistotou vzorkovania) a vyčleňte do rozpočtu aspoň jedného recenzenta na plný úväzok na každých desať robotických hodín záznamu denne. Systém automatického označovania nenahrádza ľudí, ale mení ich prácu.
- Navrhnite veľkosť výpočtu pre krok 72B. Ostatné fázy sa hodia na čokoľvek. 72B VLM vo veľkom meradle je položka, ktorá odôvodňuje 8-GPU server. Ak váš kanál používa iba 7B VLM triedy, postačí 4-GPU box. Ak chcete bohatšie popisy a jemné doladenie kadencie v uzavretej slučke, chcete konfiguráciu s 8 GPU.
- Umiestnite úložnú vrstvu na NVMe a studenú vrstvu na rotujúci disk. Týždeň záznamov o flotile sú terabajty. Automatické označovanie je pri použití menších modelov častejšie obmedzené vstupno-výstupnými operáciami ako výpočtami GPU.
Zostava Kentina má K-AI 256 Turín Dual / 8× RTX 5090 dimenzované pre túto pracovnú záťaž na strane spotrebiteľského kremíka a K-AI 4× RTX Pro 6000 Blackwell na úrovni vyššej VRAM, keď chcete súčasne uchovávať viacero veľkých VLM. Ceny a podrobnosti o zostavení nájdete na príslušných stránkach produktov a v budúcom článku I05, ktorý prejde kompletnou referenčnou zostavou.
Najnovšie prvky tohto balíka sa posúvajú každý štvrťrok – SAM 3 má šesť mesiacov, Qwen3-VL je práve dodaný, Cosmos Reason 2 je čerstvý – takže konkrétne modely v tomto článku budú starnúť rýchlejšie ako architektúra. Samotná architektúra je teraz stabilná. Krabice, masky, popisky, graf scény, kontrola, trénovanie, nasadenie. Táto slučka nikam nevedie.
Toto je súčasť Kentino Wiki, referenčnej série o umelej inteligencii, robotike a systémoch, ktoré ich spájajú. Komentáre a opravy sú vítané na adrese info@kentino.com.