Korišćenje OCR modela sa llama.cpp

llama.cpp sada podržava razne male OCR (Optical Character Recognition) modele koji se mogu pokretati na uređajima slabijih specifikacija. Ovi modeli su dovoljno mali da rade na grafičkim karticama (GPU) sa samo 4GB VRAM-a, a neki od njih čak i na procesoru (CPU) uz sasvim solidne performanse.

U ovom postu ćemo pokazati kako da koristite ove OCR modele uz pomoć llama.cpp.

Podržani OCR modeli

U trenutku pisanja, llama.cpp podržava sledeće OCR modele:

LightOnOCR
Qianfan-OCR
GLM-OCR
Deepseek-OCR
Dots.OCR
HunyuanOCR
PaddleOCR-VL (napomena: može imati nešto lošije performanse)

Brzi početak

Najjednostavniji način za korišćenje ovih modela je putem llama-server komande. Pokretanje servera se preporučuje za većinu slučajeva jer vam omogućava da lako integrišete OCR model u svoje aplikacije koristeći REST API.

Primer pokretanja servera direktno sa Hugging Face-a:

llama-server -hf ggml-org/GLM-OCR-GGUF

Nakon pokretanja, instanca servera će biti dostupna na adresi: http://localhost:8080.

Saveti i trikovi

Redosled unosa (Prompting)

Većina modela prati specifičan redosled: prvo ide slika, a zatim tekstualni upit. Kod multimodalnih modela opšte namene, preporučljivo je u prompt uključiti specifična uputstva da želite da izvršite OCR zadatak.

Kvalitet i performanse

Većina modela je podrazumevano kvantizovana na Q8_0, što pruža dobar balans između kvaliteta i brzine.

F16 kvantizacija: Ako vam je potreban veći kvalitet, možete probati F16, ali to zahteva jači hardver.
Determinizam: Smanjite parametar temperature (npr. --temperature 0.1 ili --top-k 1) kako bi odgovori modela bili precizniji i dosledniji.

Rešavanje problema

Halucinacije: Ako model daje netačne rezultate, uverite se da je slika čista i visokog kvaliteta.
Jezik: Neki modeli možda nisu obučeni za specifične jezike ili tipove slika. Ako jedan model ne radi dobro, pokušajte sa drugim sa liste podržanih.

Zaključak

Zahvaljujući podršci za razne male OCR modele, llama.cpp se sada može koristiti za širi spektar aplikacija koje zahtevaju prepoznavanje teksta, i to bez oslanjanja na servise u oblaku (cloud), čime se čuva privatnost i smanjuju troškovi.

Izvor: Hugging Face Blog - Using OCR models with llama.cpp

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija