Meni

Kategorije

Tagovi

AIZONA
Kompas za svet veštačke inteligencije

DeepSeek OCR i budućnost kompresije teksta

Kategorija: Modeli
Petak, 31. oktobar 2025. 22:46
Autor: AIZona

DeepSeek OCR i budućnost kompresije teksta

DeepSeek je predstavio revolucionarni rad i model pod nazivom DeepSeek OCR, koji uvodi novu metodu za kompresiju teksta predstavljanjem istog u formi slike. Ova tehnologija, nazvana "optička kompresija kroz vizuelne tokene", postiže impresivnu stopu kompresije od 10x, uz zadržavanje 97% tačnosti pri dekodiranju. Ključna inovacija leži u rešavanju jednog od najvećih ograničenja savremenih jezičkih modela (LLM): uskog grla kontekstnog prozora, gde se računarski troškovi eksponencijalno (kvadratno) povećavaju sa svakim dodatnim tokenom.

Korišćenjem Vision Language Modela (VLM), DeepSeek OCR efikasno "pakuje" deset puta više tekstualnih informacija u isti budžet tokena koji bi bio potreban za sliku. Ovaj pristup ima potencijal da drastično poveća kapacitet postojećih modela, pretvarajući, na primer, kontekstni prozor od dva miliona tokena u ekvivalent od dvadeset miliona. Vodeći stručnjaci, poput Andreja Karpathy-ja, vide ovo kao mogući zaokret ka paradigmi u kojoj bi svi ulazi u LLM, čak i čist tekst, bili predstavljeni kao slike. To bi omogućilo efikasniju obradu, eliminisalo bi problematične tokenizatore i otvorilo put za obradu bogatijih formata informacija.

Problem kontekstnog prozora

Veliki jezički modeli (LLM) kao što su Gemini i ChatGPT suočavaju se sa fundamentalnim ograničenjem poznatim kao "usko grlo kontekstnog prozora". Kontekstni prozor predstavlja količinu teksta ili tokena koja se može uneti u model kao prompt, pružajući mu sve neophodne informacije za generisanje optimalnog odgovora.

Problem nastaje zbog skaliranja:

  • Kvadratno Povećanje Troškova: Računski troškovi povezani sa proširenjem kontekstnog prozora rastu kvadratno.
  • Neefikasnost: Svaki dodatni token značajno povećava potrebnu računarsku snagu, čineći veoma velike kontekstne prozore izuzetno skupim i nepraktičnim za implementaciju.

Ovo ograničenje direktno utiče na sposobnost modela da obrađuju duge dokumente, kompleksne skupove podataka ili obimne razgovore.

DeepSeekovo rešenje: Optička kompresija kroz vizuelne tokene

DeepSeek predlaže rešenje koje zaobilazi tradicionalno skaliranje tokena. Njihova teza, inspirisana izrekom "slika vredi hiljadu reči", jeste da se tekst može predstaviti kao slika, čime se postiže daleko veća gustina informacija po tokenu.

U svom istraživačkom radu navode: "Jedna slika koja sadrži tekst dokumenta može predstavljati bogate informacije koristeći znatno manje tokena od ekvivalentnog digitalnog teksta, što sugeriše da bi optička kompresija kroz vizuelne tokene mogla postići mnogo veće stope kompresije."

Ovaj pristup omogućava da se 10 puta više teksta unese u isti kontekstni prozor, uz minimalno povećanje latencije usled konverzije iz teksta u sliku i obrnuto. DeepSeek OCR je predstavljen kao vizuelno-jezički model (VLM) dizajniran da služi kao preliminarni dokaz koncepta za ovu efikasnu vizuelno-tekstualnu kompresiju.

Tehnička arhitektura DeepSeek OCR-a

Proces kompresije i dekompresije odvija se kroz nekoliko ključnih faza:

  1. Ulaz (Input): Proces počinje sa slikom koja sadrži tekst. To može biti skenirani PDF ili bilo koja slika sa tekstom, pri čemu tekst može biti veoma sitan do granice vizuelne rezolucije.
  2. Obrada (Processing):
  • Slika se prvo deli na manje segmente (eng. patches) veličine 16x16 piksela.
  • SAM (Segment Anything Model): Model sa 80 miliona parametara analizira ove segmente, fokusirajući se na lokalne detalje poput oblika slova i drugih vizuelnih karakteristika.
  • Downsampling: Podaci se zatim dodatno kompresuju i sažimaju.
  • CLIP: Model sa 300 miliona parametara preuzima kompresovane podatke. Njegova funkcija je da skladišti informacije o tome kako se segmenti spajaju i na kojoj stranici se nalaze, omogućavajući rekonstrukciju.
  1. Izlaz (Output) / Dekodiranje:
  • DeepSeek 3B: Za dekodiranje se koristi model sa 3 milijarde parametara tipa "Mixture of Experts" (MoE), sa 570 miliona aktivnih parametara. Ovaj model uzima kompresovani vizuelni prikaz i pretvara ga nazad u digitalni tekst.

Performanse i Metrike Tačnosti

Efikasnost modela zavisi od željenog nivoa kompresije, pri čemu veća kompresija dovodi do smanjenja tačnosti. Prema objavljenom radu, postignuti su sledeći rezultati:

Stopa KompresijePreciznost Dekodiranja (OCR)
9-10x96%+
10-12x90%
20x60%

Ovi podaci pokazuju jasan kompromis: dok je kompresija od 10x izuzetno tačna, daljim povećanjem stope kompresije preciznost značajno opada.

Trening podaci i metodologija

Model je treniran na obimnom i raznovrsnom skupu podataka, što je karakteristično za DeepSeek-ov pristup transparentnosti:

  • Veličina Podataka: Prikupljeno je 30 miliona stranica iz različitih PDF dokumenata.
  • Jezička Pokrivenost: Podaci pokrivaju oko 100 jezika.
    • Kineski i engleski jezik čine približno 25 miliona stranica.
    • Ostali jezici čine preostalih 5 miliona stranica.
  • Anotacija: Korišćene su "precizne anotacije sa rasporedom elemenata" (eng. fine annotations with layouts), što ukazuje na detaljno označavanje strukture dokumenata tokom treninga.

Reakcije stručnjaka i implikacije

Ovaj rad je izazvao značajnu pažnju u AI zajednici, sa posebnim osvrtom na njegove dugoročne implikacije.

Andrej Karpathy

Andrej Karpathy, istaknuti AI istraživač, izneo je nekoliko ključnih zapažanja:

  • Fundamentalno pitanje: Smatra da je interesantniji deo rada postavljanje pitanja "da li su pikseli bolji ulazi za LLM od teksta" i da li su tekstualni tokeni "rasipnički i užasni".
  • Univerzalni Ulaz: Predlaže ideju da bi svi ulazi u LLM trebalo da budu slike, čak i kada se radi o čistom tekstu, koji bi se prvo renderovao u sliku.
  • Prednosti Pristupa Zasnovanog na Slikama:
    • Veća Kompresija: Efikasnije korišćenje kontekstnog prozora.
    • Opštiji Tok Informacija: Mogućnost obrade ne samo teksta, već i formatiranja (podebljano, obojeno) i proizvoljnih slika.
    • Naprednija Obrada: Ulaz se može lako obraditi pomoću dvosmerne pažnje (bidirectional attention), koja je moćnija od podrazumevane autoregresivne pažnje.
    • Eliminacija Tokenizatora: Omogućava uklanjanje tokenizatora, komponente LLM-a koju Karpathy smatra problematičnom.

Karpathy je takođe izrazio želju da eksperimentiše sa verzijom svog malog jezičkog modela, Nanohat, koja bi primala isključivo slike kao ulaz.

Brian Roemmele

Brian Roemmele je naglasio neverovatne dobitke u efikasnosti, ilustrujući ih primerom da bi se "čitava enciklopedija mogla kompresovati u jednu sliku visoke rezolucije".

Zaključak: Potencijalni proboj

DeepSeek OCR predstavlja kritičan proboj u načinu na koji se informacije mogu kompresovati i unositi u jezičke modele. Rešavanjem problema skaliranja kontekstnog prozora, ova tehnologija otvara potpuno novi skup potencijalnih primena, od analize ogromnih pravnih ili medicinskih arhiva do stvaranja daleko sposobnijih i svestranijih AI asistenata. Očekuje se da će se ova tehnologija u budućnosti integrisati u poznate modele, što bi moglo fundamentalno promeniti pejzaž veštačke inteligencije.

Komentari

Nema komentara. Šta vi mislite o ovome?