Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija

GPT-5.2: Najvažnije sposobnosti i performanse

Oblast: Modeli |          
Subota, 13. decembar 2025. 13:17
Autor: AIZona
Tagovi: OpenAI, GPT

GPT-5.2: Najvažnije sposobnosti i performanse

Na GDPval benčmarku, koji procenjuje zadatke zasnovane na znanju u 44 profesije i 9 velikih industrija, GPT-5.2 Thinking nadmašuje ili se izjednačava sa vrhunskim ljudskim profesionalcima u 70,9% poređenja. Pri tome, generiše rezultate preko 11 puta brže i sa manje od 1% procenjenih troškova eksperta. Ovo omogućava inženjerskim timovima da pouzdano generišu artefakte kao što su prezentacije, tabele, rasporedi i dijagrami na osnovu strukturiranih instrukcija.

Na internom benčmarku koji simulira zadatke modeliranja tabela za mlađe analitičare u investicionom bankarstvu, prosečni rezultati su porasli sa 59,1% (GPT-5.1) na 68,4% sa GPT-5.2 Thinking i 71,7% sa GPT-5.2 Pro. Ovi zadaci uključuju kompleksne finansijske modele sa strogim zahtevima za formatiranje i citiranje.

Softversko inženjerstvo

U domenu softverskog inženjerstva, GPT-5.2 Thinking postiže izvanredne rezultate:

  • SWE-Bench Pro: Dostiže 55,6% uspešnosti (u poređenju sa 50,8% za GPT-5.1) na testu koji ocenjuje generisanje zakrpa na nivou repozitorijuma za više programskih jezika.
  • SWE-bench Verified: Dostiže 80,0% uspešnosti (u poređenju sa 76,3% za GPT-5.1) na testu fokusiranom na Python.

Sposobnosti dugog konteksta i agentski radni tokovi

Dugi kontekst je ključna karakteristika dizajna. GPT-5.2 Thinking postavlja novi standard na OpenAI MRCRv2 benčmarku, gde postiže skoro 100% tačnosti na varijanti sa 4 "igle" (specifična upita) u "plastu sena" (dugi dijalog) do 256.000 tokena, što ga čini prvim modelom sa ovakvim rezultatom.

Za zadatke koji prevazilaze čak i taj kontekst, model se integriše sa Responses /compact krajnjom tačkom, koja vrši kompresiju konteksta kako bi se efektivni prozor proširio za dugotrajne poslove koji intenzivno koriste alate.

U korišćenju alata, GPT-5.2 Thinking postiže 98,7% tačnosti na Tau2-bench Telecom benčmarku, koji simulira višestruke interakcije u korisničkoj podršci. Primeri pokazuju da model uspešno upravlja složenim scenarijima, kao što je putnik sa odloženim letom, propuštenom konekcijom i izgubljenim prtljagom, rešavajući sve probleme u konzistentnom nizu, za razliku od GPT-5.1 koji ostavlja korake nedovršenim.

Vizuelno prepoznavanje, nauka i matematika

Kvalitet vizuelnog prepoznavanja je značajno unapređen. GPT-5.2 Thinking otprilike prepolovljava stope grešaka na benčmarcima za rezonovanje o grafikonima (CharXiv Reasoning) i razumevanje korisničkog interfejsa (ScreenSpot Pro) kada je omogućen Python alat. Model takođe pokazuje poboljšano prostorno razumevanje slika, kao što je preciznije identifikovanje i označavanje komponenti na matičnoj ploči.

Za naučne primene, performanse su sledeće:

  • GPQA Diamond (testira znanje na postdiplomskom nivou iz fizike, hemije i biologije):
    • GPT-5.2 Thinking: 92,4%
    • GPT-5.2 Pro: 93,2%
  • FrontierMath (Tier 1 do Tier 3): GPT-5.2 Thinking rešava 40,3% problema uz pomoć Python alata.

OpenAI ističe da je GPT-5.2 Pro doprineo dokazu u teoriji statističkog učenja, pod ljudskom verifikacijom.

Uporedna tabela modela

ModelPrimarna NamenaKontekstni Prozor / Maks. IzlazGranica ZnanjaZnačajni Benčmarci (Thinking / Pro vs GPT-5.1 Thinking)
GPT-5.1Vodeći model za kodiranje i agentske zadatke sa podesivim naporom rezonovanja.400.000 tokena kontekst, 128.000 maks. izlaz30.09.2024.SWE-Bench Pro 50,8%, SWE-bench Verified 76,3%, ARC-AGI-1 72,8%, ARC-AGI-2 17,6%
GPT-5.2 (Thinking)Novi vodeći model za kodiranje, rad sa znanjem i dugotrajne agente u različitim industrijama.400.000 tokena kontekst, 128.000 maks. izlaz31.08.2025.GDPval pobeđuje ili se izjednačava u 70,9% vs. profesionalci, SWE-Bench Pro 55,6%, SWE-bench Verified 80,0%, ARC-AGI-1 86,2%, ARC-AGI-2 52,9%
GPT-5.2 ProVerzija GPT-5.2 sa većom računarskom snagom za najteže rezonovanje i naučne zadatke; proizvodi pametnije i preciznije odgovore.400.000 tokena kontekst, 128.000 maks. izlaz31.08.2025.GPQA Diamond 93,2% vs 92,4% (Thinking) i 88,1% (GPT-5.1 Thinking), ARC-AGI-1 90,5% i ARC-AGI-2 54,2%

Zaključci

  1. GPT-5.2 Thinking je novi podrazumevani radni model: On zamenjuje GPT-5.1 Thinking kao glavni model za kodiranje, rad sa znanjem i agente, zadržavajući isti kontekst od 400.000 tokena i maksimalni izlaz od 128.000 tokena, ali sa jasno višim performansama na ključnim benčmarcima.
  2. Značajan skok u tačnosti u odnosu na GPT-5.1 pri sličnoj skali: Na ključnim testovima, GPT-5.2 Thinking pokazuje značajna poboljšanja, kao što je skok sa 17,6% na 52,9% na ARC-AGI-2 benčmarku, dok zadržava uporediva ograničenja tokena.
  3. GPT-5.2 Pro je namenjen vrhunskom rezonovanju i nauci: Ovo je varijanta sa većom računarskom snagom koja se ističe u najtežim zadacima rezonovanja i naučnim primenama, postižući najviše rezultate na benčmarcima kao što su GPQA Diamond i ARC-AGI.

Izvor: MarkTechPost, "OpenAI Introduces GPT 5.2: A Long Context Workhorse For Agents, Coding And Knowledge Work", Asif Razzaq, 11. decembar 2025.

#OpenAI #GPT

Komentari

Nema komentara. Šta vi mislite o ovome?