Zašto je Gemini 3 Deep Think revolucija, a ne samo novi benchmark
Dok se tehnološki svet utrkuje u objavljivanju rekordnih rezultata na testovima matematike i kodiranja, prava priča o novom Gemini 3 sistemu ne leži u pukim procentima uspeha, već u fundamentalnoj promeni paradigme. Iako su rezultati impresivni — 84,6% na ARC AGI2 testu (što je 30 poena iznad GPT-4o), status velemajstora na Code Force platformi (8. programer na svetu) i 48,4% na "Humanity's Last Exam" — oni su samo simptom dublje promene. Google je tiho objavio tri paralelna napretka: Deep Think (v2), istraživačkog agenta Altheia i dokumentaciju o 18 rešenih otvorenih naučnih problema. Pravo pitanje koje moramo postaviti nije "da li su modeli veći?", već "kako da nateramo postojeće modele da razmišljaju pametnije?".
Paradigma "Pametnije, a ne veće": Smanjenje resursa za 100x
Najšokantniji podatak iz Google-ovog izveštaja nije novi rekord, već efikasnost postignuta kroz inference-time scaling laws (zakone skaliranja tokom vremena zaključivanja). Podaci pokazuju da je verzija Gemini 3 iz januara 2026. godine postigla isti nivo performansi na olimpijskim zadacima kao verzija iz jula 2025. godine, ali uz 100 puta manje procesorske snage.
Ovo označava prelazak sa sirove snage pre-treninga na inteligentnu alokaciju resursa tokom "razmišljanja". Umesto da trošimo milijarde na povećanje broja parametara, mi produžavamo vreme koje model troši na rešavanje konkretnog zadatka.
"Ne trebaju vam veći modeli, potrebna vam je pametnija raspodela resursa u trenutku donošenja odluke."
Ova transformacija omogućava sistemu da postane drastično sposobniji bez dodirivanja težina modela (weights), već isključivo kroz optimizaciju procesa rešavanja problema.
Šta je zapravo Deep Think? (Nije ono što mislite)
Deep Think nije novi model; to je specifičan režim rada unutar Gemini 3 porodice. Da bismo razumeli razliku, možemo koristiti metaforu: standardni LLM je kao čovek koji govori bez filtera (linearno), dok je Deep Think istraživač sa belom tablom koji može da obriše grešku i počne ispočetka.
Dok standardni Chain of Thought (CoT) funkcioniše linearno, Deep Think koristi test-time compute za:
- Paralelno testiranje hipoteza: Model istražuje više puteva istovremeno, verifikuje ih i bira najperspektivniji.
- Backtracking (Povratak unazad): Ako udari u slepu ulicu, sistem se vraća na prethodni čvor odlučivanja. Standardni modeli to ne mogu; oni nastavljaju linearno čak i kada je očigledno da su pogrešili.
- Dinamičke runde razmišljanja: Broj krugova analize je varijabilan. Za trivijalne zadatke to su 2–3 runde, dok za kompleksne fizike na PhD nivou model može izvršiti 10 ili više rundi duboke analize.
Altheia: Agent koji zna kada nešto ne zna
Možda najznačajniji deo objave je istraživački agent Altheia, izgrađen na bazi Deep Think-a. Njegova arhitektura je strukturirana kao agentna petlja (agentic loop) sa tri uloge: generator, verifikator i revizor.
Altheia je postigla neverovatnih 91,9% na Advanced Proof Bench-u (skok sa prethodnih 65,7%). Ono što je fascinantno je njena uslovna tačnost od 98,3% u slučajevima kada zapravo ponudi rešenje. Ovo je omogućeno kroz dve ključne inovacije:
- Grounding putem Google pretrage: Za razliku od modela koji haluciniraju citate, Altheia koristi pretragu za navigaciju kroz stvarnu matematičku literaturu, suzbijajući halucinacije u specijalizovanim domenima.
- Intelektualno poštenje: Sistem je specifično obučen da prizna kada ne može da reši problem. Ovo je "ponizno" (humbling) za sisteme koji su po dizajnu uvek preterano samouvereni, ali je neophodno za naučnu rigoroznost.
Moć "Harnessa": Zašto je orkestracija važnija od modela
Meta-lekcija ove godine je jasna: agentni sloj (orkestracija) donosi veći napredak nego puko unapređenje bazičnog modela. Dokaz leži u ekonomiji AI-a. Agenti poput Poetic-a su na ARC AGI2 testu nadmašili sirovi Deep Think model, ali uz drastično niže troškove: 13,62 dolara po zadatku, u poređenju sa ranijih 77 dolara.
Samo promenom alata i načina na koji model pristupa problemu (harness), moguće je dobiti 5–8% performansi, što je često više nego što donosi čitava nova generacija modela. Agentni omotač je taj koji omogućava da Deep Think postane ekonomski održiv alat za realno istraživanje, a ne samo skupi laboratorijski eksperiment.
AI kao naučni saradnik, a ne samo generator koda
Google je pokazao da Gemini 3 može rešavati stvarne istraživačke probleme, a ne samo benchmarke. U saradnji sa stručnjacima, sistem je adresirao 18 otvorenih naučnih pitanja. Najznačajniji primeri uključuju:
- Obaranje decenijske matematičke pretpostavke: Identifikovanje greške u hipotezi koja je dugo stajala kao validna.
- Interdisciplinarni skok: Rešavanje problema u jednoj grani matematike korišćenjem alata iz potpuno nepovezane discipline.
- Kriptografska revizija: Pronalaženje kritičnih grešaka u složenim algoritmima koje su promakle ljudskim ekspertima.
Ipak, Google zadržava naučnu iskrenost. Na prestižnom Erdős problem setu, od 700 otvorenih problema, model je uspeo da autonomno reši samo 4 (uz 63 tehnički korektna odgovora od 200 pokušaja). To je stopa uspeha od 6,5%. Google rezultate klasifikuje na nivoe 0–4; Gemini 3 je trenutno na nivou 0–2 (publishable quality), što znači da još uvek nismo stigli do nivoa 4 — epohalnih, revolucionarnih otkrića.
Zaključak: Budućnost saradnje, a ne zamene
Deep Think nije samo alat za demonstraciju moći. On se već integriše u realni naučni proces, pružajući pre-submission feedback autorima na vrhunskim konferencijama (poput STOC 2026), gde identifikuje logičke rupe i greške u kalkulacijama pre zvanične recenzije.
Ulazimo u eru AI-a kao "junior istraživača". Ako smo za samo šest meseci postigli 100x veću efikasnost kroz optimizaciju procesa razmišljanja, moramo se zapitati: kako će izgledati nauka kada ovakvi sistemi postanu standardni članovi svakog istraživačkog tima? Prava revolucija nije u tome što AI zna sve odgovore, već u tome što konačno uči kako da do njih dođe na proverljiv, rigorozan i efikasan način.
Komentari
Nema komentara. Šta vi mislite o ovome?