Korišćenje OCR modela sa llama.cpp
llama.cpp sada podržava razne male OCR (Optical Character Recognition) modele koji se mogu pokretati na uređajima slabijih specifikacija. Ovi modeli su dovoljno mali da rade na grafičkim karticama (GPU) sa samo 4GB VRAM-a, a neki od njih čak i na procesoru (CPU) uz sasvim solidne performanse.
U ovom postu ćemo pokazati kako da koristite ove OCR modele uz pomoć llama.cpp.
Podržani OCR modeli
U trenutku pisanja, llama.cpp podržava sledeće OCR modele:
- LightOnOCR
- Qianfan-OCR
- GLM-OCR
- Deepseek-OCR
- Dots.OCR
- HunyuanOCR
- PaddleOCR-VL (napomena: može imati nešto lošije performanse)
Brzi početak
Najjednostavniji način za korišćenje ovih modela je putem llama-server komande. Pokretanje servera se preporučuje za većinu slučajeva jer vam omogućava da lako integrišete OCR model u svoje aplikacije koristeći REST API.
Primer pokretanja servera direktno sa Hugging Face-a:
llama-server -hf ggml-org/GLM-OCR-GGUF
Nakon pokretanja, instanca servera će biti dostupna na adresi: http://localhost:8080.
Saveti i trikovi
Redosled unosa (Prompting)
Većina modela prati specifičan redosled: prvo ide slika, a zatim tekstualni upit. Kod multimodalnih modela opšte namene, preporučljivo je u prompt uključiti specifična uputstva da želite da izvršite OCR zadatak.
Kvalitet i performanse
Većina modela je podrazumevano kvantizovana na Q8_0, što pruža dobar balans između kvaliteta i brzine.
- F16 kvantizacija: Ako vam je potreban veći kvalitet, možete probati F16, ali to zahteva jači hardver.
- Determinizam: Smanjite parametar temperature (npr.
--temperature 0.1ili--top-k 1) kako bi odgovori modela bili precizniji i dosledniji.
Rešavanje problema
- Halucinacije: Ako model daje netačne rezultate, uverite se da je slika čista i visokog kvaliteta.
- Jezik: Neki modeli možda nisu obučeni za specifične jezike ili tipove slika. Ako jedan model ne radi dobro, pokušajte sa drugim sa liste podržanih.
Zaključak
Zahvaljujući podršci za razne male OCR modele, llama.cpp se sada može koristiti za širi spektar aplikacija koje zahtevaju prepoznavanje teksta, i to bez oslanjanja na servise u oblaku (cloud), čime se čuva privatnost i smanjuju troškovi.
Komentari
Nema komentara. Šta vi mislite o ovome?