Google DeepMind predstavlja Vision Banana: Fino podešen generator slika

Godinama je zajednica za kompjuterski vid funkcionisala na dva odvojena koloseka: na generativnim modelima (koji stvaraju slike) i diskriminativnim modelima (koji ih razumeju). Pretpostavka je bila jednostavna – modeli koji su dobri u stvaranju slika nisu nužno dobri u njihovom "čitanju". Međutim, novi rad iz Google-a pod nazivom „Generatori slika su generalisti za učenje vida“ (Image Generators are Generalist Vision Learners, arXiv:2604.20329), objavljen 22. aprila 2026. godine, ruši tu pretpostavku.

Tim istraživača iz Google DeepMind-a predstavio je Vision Banana, jedinstven unificirani model koji nadmašuje ili parira najsavremenijim specijalizovanim sistemima u širokom spektru zadataka vizuelnog razumevanja. To uključuje semantičku segmentaciju, segmentaciju instanci (instance segmentation), procenu monokularne metričke dubine i procenu površinskih normala (surface normal estimation), dok istovremeno zadržava originalne sposobnosti generisanja slika svog osnovnog modela.

Analogija sa velikim jezičkim modelima (LLM) koja menja sve

Ako ste radili sa velikim jezičkim modelima, verovatno već razumete pristup u dve faze: prvo se osnovni model predtrenira na ogromnim količinama tekstualnih podataka koristeći generativni cilj, a zatim se primenjuje fino podešavanje na osnovu instrukcija (instruction-tuning) kako bi se model uskladio i prilagodio specifičnim zadacima (tzv. downstream tasks). Faza predtreniranja je mesto gde model razvija bogatu unutrašnju reprezentaciju jezika koja se može prenameniti za gotovo sve.

Glavna tvrdnja Google tima jeste da predtreniranje kroz generisanje slika igra apsolutno istu temeljnu ulogu u domenu kompjuterskog vida. Njihov osnovni model, Nano Banana Pro (NBP), predstavlja Google-ov najsavremeniji generator slika. Izvođenjem laganog procesa finog podešavanja instrukcijama – mešanjem malog udela podataka za zadatke kompjuterskog vida u originalnu mešavinu za treniranje NBP-a – stvorili su Vision Banana.

Ključni uvid je sledeći: generisanje fotorealističnih slika implicitno zahteva od modela da razume geometriju, semantiku, dubinu i odnose između objekata. Vision Banana uči da izrazi to latentno znanje u merljivim formatima koji se mogu dekodirati.

Ono što je presudno, nikakvi podaci iz evaluacionih benčmarka nisu uključeni u mešavinu za fino podešavanje, čime se osigurava da svi rezultati odražavaju istinsku generalističku sposobnost prenošenja znanja (zero-shot transfer), a ne puko učenje napamet u okviru poznatog domena.

Kako to funkcioniše: Percepcija kao generisanje slika

Umesto dodavanja specijalizovanih dekodera ili regresionih modula za svaki pojedinačni zadatak, svi izlazi zadataka za vid su parametrizovani kao RGB slike. Model je fino podešen instrukcijama da proizvodi vizuelizacije koje prate precizne, invertibilne šeme boja – što znači da se generisane slike mogu dekodirati nazad u kvantitativne izlaze za potrebe evaluacije.

Istraživački tim je identifikovao tri ključne prednosti ove strategije:

Podržava širok spektar zadataka sa jednim unificiranim modelom – nakon finog podešavanja instrukcijama, menja se samo tekstualni unos (prompt), a ne težine u modelu.
Zahteva relativno malo novih podataka za treniranje – fino podešavanje se isključivo svodi na to da nauči model kako da formatira izlaze kompjuterskog vida kao RGB slike.
Pomaže modelu da zadrži originalne sposobnosti generisanja slika – zato što su izlazi i dalje obične RGB slike.

Za semantičku segmentaciju, modelu se daju uputstva poput: "Generiši vizuelizaciju segmentacije ove slike, koristeći sledeće mapiranje boja: {'mačka': 'crveno', 'pozadina': 'žuto'}." Svaki piksel je obojen prema svojoj predviđenoj klasi, a pošto su boje zadate direktno u promptu, nije potreban fiksni rečnik oznaka.
Za segmentaciju instanci, pošto broj instanci nije unapred poznat, Vision Banana koristi strategiju inferencije "po klasi" – pokreće poseban prolaz za svaku klasu i dinamički dodeljuje jedinstvene boje svakoj instanci. Maske se potom izdvajaju klasterizacijom piksela sličnih boja pomoću zadatog praga (threshold).
Procena metričke dubine koristi bijektivno mapiranje između neograničenih vrednosti metričke dubine [0, ∞) i ograničenih RGB vrednosti u rasponu [0, 1]³. Transformacija (power transform) prvo "krivi" vrednosti dubine, koje se zatim kodiraju kao vizuelizacija u lažnim bojama prateći strukturu 3D Hilbertove krive. Ova transformacija je strogo invertibilna, tako da se generisana slika dubine čisto dekodira nazad u fizičke metričke udaljenosti. Ono što je najimpresivnije, nikakvi parametri kamere nisu potrebni. Model zaključuje apsolutnu skalu isključivo iz vizuelnih znakova i znanja o svetu usađenog tokom predtreniranja. Podaci za treniranje ove dubine su pritom 100% sintetički.
Za procenu površinskih normala, mapiranje je još direktnije: površinske normale su jedinični vektori (x, y, z) u rasponu od -1.0 do 1.0, koji se prirodno mapiraju u RGB kanale (npr. normale koje gledaju na gore se kodiraju kao svetlo zelena).

Brojke: Pobeđivanje specijalista u njihovoj sopstvenoj igri

Rezultati modela Vision Banana na benčmark testovima su izvanredni – i to u zero-shot uslovima (gde model ranije nikada nije video podatke iz setova na kojima je testiran):

Semantička segmentacija (Cityscapes val): mIoU od 0.699, u poređenju sa SAM 3 koji ima 0.652 (dobitak od 4.7 poena).
Segmentacija referentnih izraza (RefCOCOg UMD val): cIoU od 0.738, čime blago nadmašuje model SAM 3 Agent (0.734).
Segmentacija rezonovanja (ReasonSeg val): gIoU od 0.793, nadmašujući SAM 3 Agent (0.770) i prevazilazeći čak i metode trenirane na in-domain podacima (poput X-SAM-a).
Segmentacija instanci (SA-Co/Gold): pmF1 od 0.540, što je u rangu sa DINO-X (0.552) i znatno ispred modela Gemini 2.5 (0.461), APE-D (0.369) i OWLv2 (0.420).
Procena metričke dubine: prosečan δ1 od 0.882 preko šest glavnih benčmarka. Na četiri skupa podataka gde je evaluiran Depth Anything V3 (NYU, ETH3D, DIODE-Indoor, KITTI), Vision Banana postiže 0.929 naspram 0.918, koristeći nula stvarnih podataka za treniranje i bez ikakvih parametara kamere.
Procena površinskih normala: prosečna srednja greška ugla od 18.928° na četiri skupa podataka, u poređenju sa 19.642° za Lotus-2. Na indoor (unutrašnjim) setovima postiže najnižu grešku među svim upoređenim metodama.

Ono što je bitno, na generativnim benčmark testovima, Vision Banana se odlično drži rame uz rame sa svojim osnovnim modelom: ostvaruje stopu pobede od 53.5% protiv Nano Banana Pro na GenAI-Bench-u (tekst-u-sliku) i 47.8% na ImgEdit-u, čime se potvrđuje da instrukcijsko podešavanje nije narušilo generativne sposobnosti.

Ključni zaključci (Key Takeaways)

Predtreniranje za generisanje slika stvara generaliste za vid: Baš kao što LLM predtreniranje otključava razumevanje jezika, treniranje za generisanje slika prirodno razvija moćne vizuelne reprezentacije koje se usprešno prenose na druge zadatke percepcije.
Vision Banana pobeđuje specijaliste bez njihove arhitekture: Model nadmašuje SAM 3 (segmentacija), Depth Anything V3 (metrička dubina) i Lotus-2 (površinske normale), sve to kroz lagano zero-shot fino podešavanje instrukcijama.
Svi zadaci kompjuterskog vida rešavaju se generisanjem slika: Koristeći jedan te isti model i menjajući samo tekstualni prompt, različiti perceptivni zadaci se rešavaju pukim prebacivanjem na izlazne RGB slike i njihovim naknadnim dekodiranjem.
Metrička dubina bez stvarnih podataka i kamera: Model uspeva da izvede apsolutnu metričku skalu i 3D odnose potpuno samostalno, treniran samo na podacima iz engine-a za simulaciju, bez kamera i njihovih kalibracionih parametara.
Generisanje slika kao univerzalni interfejs: Ovo istraživanje može označiti promenu paradigme – generisanje slika može postati univerzalni interfejs za kompjuterski vid, otvarajući vrata istinskim Temeljnim modelima za vid (Foundational Vision Models) koji ujedinjuju generisanje i razumevanje u jednom jedinom sistemu.

Izvor: markettechpost.com

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija

Kategorije

AI alati