Metin AI modelu koji razume video: SAM 3
Da li ste se ikada zapitali kako bi računar mogao da izvrši zadatak koji zvuči jednostavno, a zapravo je neverovatno kompleksan? Na primer, kako bi mogao da pronađe i označi "svaki crveni kačket" u dugačkom video snimku, a ne samo onaj jedan na koji ste kliknuli? Ovo više nije samo teorijsko pitanje.
Meta AI tim je upravo objavio rešenje: Segment Anything Model 3 (SAM 3), jedinstveni model otvorenog koda koji je napravljen da razume vizuelne koncepte, a ne samo piksele. U nastavku teksta predstavljamo pet najvažnijih i najiznenađujućih aspekata ovog revolucionarnog modela.
Revolucija u razumevanju: Ne segmentira samo objekte, već čitave koncepte
Fundamentalna promena koju donosi SAM 3 leži u načinu na koji obrađuje zahteve. Prethodni modeli su se oslanjali na interaktivnu segmentaciju: korisnik klikne na objekat ili ga uokviri, a model označi taj jedan, specifičan objekat. SAM 3 uvodi nešto potpuno novo – "Promptable Concept Segmentation" (PCS).
PCS je sposobnost modela da pronađe sve instance jednog koncepta unutar slike ili videa, koristeći tekstualne ili vizuelne upite. To znači da mu možete reći "pronađi svaki žuti školski autobus" i on će to uraditi, razumevajući ideju, a ne samo piksele pojedinačnog autobusa.
Ključna promena nije samo u tome šta AI vidi, već kako razume naš zahtev – prelazi se sa "označi ovo" na "pronađi sve što odgovara ovoj ideji".
"Token prisustva": Genijalan trik za eliminisanje konfuzije
Jedna od ključnih tehničkih inovacija unutar SAM 3 modela je komponenta nazvana "token prisustva" (presence token). Njegova funkcija je naizgled jednostavna, ali presudna za preciznost.
Genijalnost ovog tokena leži u tome što razdvaja dva ključna zadatka: prepoznavanje (Da li je ovo uopšte traženi koncept?) i lokalizaciju (Gde je tačan oblik ovog objekta?). Ovaj token predviđa da li kandidatski okvir ili maska zaista odgovaraju traženom konceptu, pre nego što se model posveti preciznom iscrtavanju. Njegova važnost dolazi do izražaja kada se suoči sa sličnim, ali različitim upitima. Na primer, sposoban je da drastično smanji konfuziju između zahteva kao što su "igrač u belom" i "igrač u crvenom", čime značajno poboljšava preciznost.
Performanse koje ostavljaju konkurenciju daleko iza sebe
Brojevi govore sami za sebe. Na specijalizovanom SAO benchmarku za slike, SAM 3 dostiže između 75% i 80% ljudskih performansi, mereno CGF1 metrikom, što je samo po sebi impresivno.
Međutim, kada se uporedi sa drugim vodećim sistemima, njegova superiornost postaje očigledna. Na SA Core Gold benchmarku za detekciju objekata (box detection), rezultati su sledeći:
- SAM 3: 55.7 CGF1
- OWLV2: 24.5 CGF1
- Dino X: 22.5 CGF1
- Gemini 2.5: 14.4 CGF1
Ovi podaci ne pokazuju samo poboljšanje; oni ilustruju promenu paradigme. Jedan unificiran model ne samo da dostiže, već i deklasira visoko specijalizovane detektore, ostavljajući jaz u performansama koji je teško ignorisati.
Učio je iz najvećeg "vizuelnog rečnika" ikada stvorenog
Da bi se stvorio model sa ovakvim sposobnostima, bio je potreban i revolucionaran pristup podacima. Meta je za trening i evaluaciju SAM 3 modela kreirala potpuno novu porodicu skupova podataka pod nazivom Segment Anything with Concepts (SAO).
Razmere ovog poduhvata su zapanjujuće:
- SAO benchmark sadrži 270.000 jedinstvenih koncepata, što je više od 50 puta više od bilo kog prethodnog benchmarka za segmentaciju.
- Celokupan korpus sadrži preko 4 miliona automatski anotiranih jedinstvenih koncepata, što ga čini najvećim korpusom za segmentaciju otvorenog vokabulara visokog kvaliteta na svetu.
Kako bi se osiguralo da model uči fine razlike, korišćena je i napredna tehnika "hard negative mining", koja ga specifično uči da razlikuje fraze koje su vizuelno slične, ali semantički potpuno različite – na primer, da ne pomeša "policajca u plavoj uniformi" sa "poštarom u plavoj uniformi".
Jedan model za sve: Od statičnih slika do dugih video zapisa
Jedan od najimpresivnijih aspekata SAM 3 je njegova jedinstvena arhitektura koja podjednako efikasno obrađuje i statične slike i video zapise.
Dizajn modela razdvaja detektor (koji pronalazi objekte) i tracker (koji ih prati kroz vreme), ali oni dele isti vizuelni enkoder. Ovaj pametan pristup minimizira smetnje između zadataka, što omogućava da model bude bolji u obe funkcije istovremeno bez kompromisa i da elegantno skalira kako se dodaju novi podaci. Uprkos ovom naprednom dizajnu, model i dalje zadržava interaktivni interfejs sličan prethodnim "Segment Anything" modelima, omogućavajući korisnicima da precizno doteraju rezultate.
Njegov uspeh je potvrđen i na videu, gde postiže odlične rezultate na različitim benchmarkovima (SAVV, YT temporal 1B, LVIS i drugi). Na primer, na YT temporal 1B testu dostiže impresivnih 50.8 CGF1, potvrđujući svoju efikasnost u praćenju objekata tokom vremena.
Pogled u budućnost
Segment Anything Model 3 nije samo još jedno inkrementalno poboljšanje. On predstavlja značajan korak ka veštačkoj inteligenciji koja svet ne samo da "vidi", već ga i "razume" na konceptualnom nivou, sličnije načinu na koji to rade ljudi.
Sada kada AI počinje da razume naš vizuelni svet kroz koncepte, a ne samo objekte, koje će to nove, nezamislive mogućnosti otvoriti u budućnosti?
Komentari
Nema komentara. Šta vi mislite o ovome?