OpenAI lansira GPT Image 1.5 za precizno uređivanje slika

OpenAI API omogućava napredno generisanje i uređivanje slika na osnovu tekstualnih upita, koristeći najnoviju porodicu modela GPT Image, kao i starije DALL·E modele. Programerima su na raspolaganju dva osnovna API-ja za pristup ovim mogućnostima: Image API, koji je optimizovan za jednostavne, jednokratne zadatke generisanja, uređivanja ili kreiranja varijacija slika, i Responses API, dizajniran za izgradnju konverzacijskih, interaktivnih iskustava gde se slike mogu iterativno dorađivati unutar višepoteznog dijaloga.

Najnoviji i najnapredniji model je gpt-image-1.5, koji nudi superioran kvalitet i razumevanje instrukcija. Pored njega, GPT Image porodica uključuje modele gpt-image-1 i gpt-image-1-mini, pri čemu je potonji cenovno najefikasnija opcija. Važno je napomenuti da su stariji modeli, DALL·E 2 i DALL·E 3, označeni kao zastareli i njihova podrška će prestati 5. decembra 2026. godine.

Ključne funkcionalnosti obuhvataju višepotezno uređivanje, inpainting (uređivanje dela slike pomoću maske), očuvanje visoke vernosti detalja sa ulaznih slika (posebno korisno za lica i logotipe), kao i streaming generisanja za interaktivnija korisnička iskustva. API nudi širok spektar prilagođavanja izlaznih rezultata, uključujući veličinu, kvalitet, format datoteke (PNG, JPEG, WebP), nivo kompresije i podršku za prozirnu pozadinu. Model troškova je zasnovan na broju tokena, koji zavisi od veličine i kvaliteta izlazne slike, kao i od složenosti ulaznih podataka (tekstualni upiti i ulazne slike).

1. Uvod u API-je za generisanje slika

OpenAI nudi dva različita API-ja za integraciju mogućnosti generisanja slika, svaki sa specifičnim namenama.

1.1. Image API

Image API pruža direktan pristup funkcionalnostima za rad sa slikama putem tri specifična endpoint-a:

Generations: Kreira potpuno nove slike od nule na osnovu tekstualnog upita (prompta).
Edits: Modifikuje postojeće slike, delimično ili u potpunosti, koristeći novi tekstualni upit.
Variations: Generiše varijacije postojeće slike (dostupno samo sa modelom dall-e-2).

Ovaj API podržava modele iz GPT Image porodice (gpt-image-1.5, gpt-image-1, gpt-image-1-mini), kao i zastarele modele dall-e-2 i dall-e-3.

1.2. Responses API

Responses API omogućava generisanje slika kao deo konverzacije ili višestepenih procesa. Funkcioniše kao ugrađeni alat (image_generation tool) koji može biti pozvan od strane glavnih jezičkih modela (npr. gpt-5). U poređenju sa Image API-jem, nudi dodatne mogućnosti:

Višepotezno uređivanje: Omogućava iterativno i precizno uređivanje slika kroz dijalog.
Fleksibilni ulazi: Prihvata ID-jeve datoteka (File ID) kao ulazne slike, pored direktnog slanja bajtova.

Trenutno, alat za generisanje slika unutar ovog API-ja podržava modele gpt-image-1 i gpt-image-1-mini, sa podrškom za gpt-image-1.5 u pripremi.

1.3. Odabir odgovarajućeg API-ja

Image API je najbolji izbor ako je potrebno generisati ili urediti jednu sliku na osnovu jednog upita.
Responses API je preporučen za izgradnju konverzacijskih i interaktivnih iskustava za uređivanje slika pomoću GPT Image modela.

Oba API-ja omogućavaju prilagođavanje izlaznih parametara kao što su kvalitet, veličina, format, kompresija i prozirnost pozadine.

2. Poređenje modela

OpenAI nudi različite modele za generisanje slika, od kojih se preporučuje korišćenje najnovije GPT Image porodice.

2.1. GPT Image porodica

Ovo je najnovija generacija multimodalnih jezičkih modela, sa gpt-image-1.5 kao najnaprednijim.

gpt-image-1.5: Vrhunski model koji nudi najbolji ukupan kvalitet.
gpt-image-1: Standardni model visokog kvaliteta.
gpt-image-1-mini: Cenovno najpovoljnija opcija, pogodna kada vrhunski kvalitet slike nije prioritet.

Za korišćenje GPT Image modela, može biti potrebna verifikacija organizacije (API Organization Verification) putem developerske konzole.

2.2. Zastareli modeli: DALL·E 2 i DALL·E 3

Ovi specijalizovani modeli se takođe mogu koristiti putem Image API-ja, ali su označeni kao zastareli.

Prestanak podrške: Podrška za DALL·E 2 i DALL·E 3 će biti ukinuta 5. decembra 2026. godine.

2.3. Tabela za poređenje

Model	Endpoint-i	Slučaj Upotrebe
DALL·E 2	Image API: Generations, Edits, Variations	Niža cena, konkurentni zahtevi, inpainting (uređivanje slike sa maskom).
DALL·E 3	Image API: Generations	Viši kvalitet slike od DALL·E 2, podrška za veće rezolucije.
GPT Image	Image API: Generations, Edits Responses API (kao alat)	Superiorno praćenje instrukcija, renderovanje teksta, detaljno uređivanje, znanje o stvarnom svetu.

3. Ključne funkcionalnosti

API-ji nude širok spektar mogućnosti za generisanje i manipulaciju slikama.

3.1. Generisanje slika

Osnovna funkcionalnost je kreiranje slika na osnovu tekstualnih upita. Moguće je generisati više slika u jednom zahtevu podešavanjem n parametra.

3.2. Višepotezno generisanje

Koristeći Responses API, moguće je iterativno dorađivati slike kroz više koraka u konverzaciji. Ovo se može postići na dva načina:

Korišćenjem parametra previous_response_id da se referencira prethodni odgovor.
Pružanjem ID-ja prethodno generisane slike (image ID) unutar konteksta novog zahteva.

3.3. Uređivanje slika

Endpoint za uređivanje (edits) omogućava:

Uređivanje korišćenjem referentnih slika: Generisanje nove slike koja kombinuje elemente iz jedne ili više postojećih slika.
Uređivanje pomoću maske (inpainting): Postavljanje maske preko slike kako bi se naznačilo koje područje treba zameniti. Kod GPT Image modela, maska služi kao smernica zasnovana na promptu i model je možda neće pratiti sa apsolutnom preciznošću. Maska i ulazna slika moraju biti istih dimenzija i formata, a maska mora sadržati alfa kanal.

3.4. Očuvanje detalja ulazne slike (input fidelity)

GPT Image modeli podržavaju parametar input_fidelity postavljen na high kako bi se bolje sačuvali detalji sa ulaznih slika, što je ključno za elemente poput lica ili logotipa.

gpt-image-1.5: Čuva detalje sa visokom vernošću za prvih 5 ulaznih slika.
gpt-image-1 i gpt-image-1-mini: Čuvaju detalje sa visokom vernošću samo za prvu ulaznu sliku. Korišćenje ove opcije povećava broj ulaznih tokena i, posledično, cenu zahteva.

3.5. Streaming generisanja

Oba API-ja podržavaju streaming, što omogućava primanje delimičnih slika (partial images) dok se konačna slika generiše. Parametar partial_images može se postaviti na vrednost od 0 do 3 kako bi se kontrolisao broj primljenih delimičnih slika.

3.6. Revidirani prompt

Kada se koristi alat za generisanje slika u Responses API-ju, glavni model (npr. gpt-4.1) automatski revidira korisnički prompt radi boljih performansi. Ovaj modifikovani prompt je dostupan u polju revised_prompt u odgovoru API-ja.

4. Prilagođavanje izlaznih parametara

API omogućava detaljnu kontrolu nad karakteristikama generisane slike.

Veličina (Size): Dostupne su dimenzije 1024x1024 (kvadrat), 1024x1536 (portret) i 1536x1024 (pejzaž). Podržana je i opcija auto (podrazumevano).
Kvalitet (Quality): Opcije su low, medium, high i auto (podrazumevano). Kvadratne slike standardnog kvaliteta se najbrže generišu.
Format: Podrazumevani format je png. Dostupni su i jpeg i webp. Korišćenje jpeg formata je brže od png.
Kompresija (Compression): Za jpeg i webp formate, može se definisati nivo kompresije od 0-100% pomoću parametra output_compression.
Prozirnost (Transparency): Podešavanjem background na transparent dobija se slika sa prozirnom pozadinom. Ova opcija je podržana samo za png i webp formate i najbolje funkcioniše sa medium ili high kvalitetom.

5. Troškovi, latencija i ograničenja

5.1. Struktura troškova

Troškovi se zasnivaju na broju tokena. Konačna cena je zbir:

Tokena za ulazni tekst (prompt).
Tokena za ulazne slike (ako se koristi endpoint za uređivanje).
Tokena za izlaznu sliku.

Broj izlaznih tokena zavisi od dimenzija i kvaliteta slike, kao što je prikazano u tabeli:

Kvalitet	Kvadrat (1024×1024)	Portret (1024×1536)	Pejzaž (1536×1024)
Low	272 tokena	408 tokena	400 tokena
Medium	1056 tokena	1584 tokena	1568 tokena
High	4160 tokena	6240 tokena	6208 tokena

Dodatno, svaka delimična slika generisana putem streaming-a dodaje 100 izlaznih tokena na ukupan trošak.

5.2. Ograničenja modela

GPT Image modeli imaju sledeća ograničenja:

Latencija: Obrada složenih upita može trajati do 2 minuta.
Renderovanje Teksta: Iako značajno poboljšano, model i dalje može imati poteškoća sa preciznim pozicioniranjem i jasnoćom teksta.
Konzistentnost: Održavanje vizuelne doslednosti za ponavljajuće likove ili elemente brenda kroz više generacija može biti izazov.
Kontrola Kompozicije: Precizno pozicioniranje elemenata u strukturiranim kompozicijama može biti teško.

5.3. Moderacija sadržaja

Svi upiti i generisane slike se filtriraju u skladu sa politikom sadržaja. Za GPT Image modele, moguće je kontrolisati strogost moderacije pomoću parametra moderation:

auto (podrazumevano): Standardno filtriranje koje ograničava kreiranje određenih kategorija sadržaja neprikladnog za određene uzraste.
low: Manje restriktivno filtriranje.

Izvor: openai.com

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija