Misleći modle kompanije Baidu: ERNIE-4.5-VL-28B-A3B
Kompanija Baidu je objavila ERNIE-4.5-VL-28B-A3B-Thinking, novi, kompaktan i open-source multimodalni model za rezonovanje iz ERNIE-4.5 familije. Ključna inovacija modela je njegova arhitektura Mešavine Eksperata (Mixture of Experts - MoE) koja sadrži približno 30 milijardi ukupnih parametara, ali aktivira samo 3 milijarde parametara po tokenu. Ovaj pristup omogućava modelu da postigne performanse na nivou znatno većih modela, dok zadržava računarski i memorijski profil modela klase 3B.
Model je posebno optimizovan za napredno razumevanje dokumenata, grafikona i video zapisa, zahvaljujući dodatnoj fazi treninga usmerenoj na vizuelno-jezičko rezonovanje i primeni multimodalnog učenja sa potkrepljivanjem (multimodal reinforcement learning). Njegove istaknute sposobnosti uključuju "Thinking with Images" (Razmišljanje sa slikama), koje omogućava modelu da iterativno analizira delove slike, i "Tool Utilization" (Korišćenje alata), koje mu daje mogućnost pozivanja eksternih alata poput pretrage slika.
U poređenju sa konkurentskim modelima kao što su Qwen-2.5-VL-7B i Qwen-2.5-VL-32B, ERNIE-4.5-VL-28B-A3B-Thinking pokazuje konkurentne ili superiorne performanse uz manji broj aktivnih parametara. Objavljen pod Apache 2.0 licencom i sa podrškom za vodeće platforme za implementaciju, ovaj model predstavlja praktično rešenje za komercijalne primene koje zahtevaju efikasno multimodalno rezonovanje u analitičkim zadacima.
Detaljna analiza
Arhitektura i efikasnost
ERNIE-4.5-VL-28B-A3B-Thinking je izgrađen na postojećoj ERNIE-4.5-VL-28B-A3B arhitekturi, koja koristi heterogeni multimodalni dizajn Mešavine Eksperata (MoE). Ova arhitektura kombinuje deljene parametre za tekstualne i vizuelne modalitete sa ekspertima specifičnim za svaki modalitet.
- Struktura parametara: Model ima ukupno oko 30 milijardi parametara, dok arhitektura pripada grani od 28 milijardi vizuelno-jezičkih (VL) parametara.
- Efikasnost aktivacije: Ključna prednost je A3B šema rutiranja, koja aktivira samo 3 milijarde parametara po svakom tokenu.
- Operativne prednosti: Ovakav dizajn omogućava da model funkcioniše sa računarskim i memorijskim zahtevima koji odgovaraju modelima klase 3B, dok istovremeno zadržava veći kapacitet za složeno rezonovanje.
Trening i optimizacija
Model prolazi kroz specijalizovane faze treninga kako bi se poboljšale njegove sposobnosti rezonovanja, posebno za guste vizuelne informacije poput dokumenata i grafikona.
- Srednja faza treninga: Model se dodatno obučava na velikom korpusu za vizuelno-jezičko rezonovanje. Cilj ove faze je poboljšanje moći reprezentacije i semantičkog usklađivanja između vizuelnih i jezičkih modaliteta.
- Multimodalno učenje sa potkrepljivanjem: Koriste se napredne strategije poput GSPO i IcePop, zajedno sa dinamičkim uzorkovanjem težine zadataka (dynamic difficulty sampling). Ova tehnika stabilizuje trening MoE arhitekture i usmerava model ka rešavanju težih primera.
Ključne sposobnosti i funkcionalnosti
Baidu pozicionira ovaj model kao lagan mehanizam za multimodalno rezonovanje. Njegove zvanično navedene sposobnosti su:
- Vizuelno rezonovanje
- STEM rezonovanje (nauka, tehnologija, inženjerstvo i matematika)
- Vizuelno uzemljenje (visual grounding), uključujući generisanje JSON graničnih okvira
- Razumevanje video zapisa, sa lokalizacijom segmenata i odgovorima sa vremenskim oznakama
- Thinking with Images: Ova ključna sposobnost omogućava modelu da se fokusira na specifične regione slike, rezonuje na osnovu isečenih prikaza i zatim integriše te lokalne opservacije u konačan odgovor.
- Tool Utilization: Proširuje mogućnosti modela omogućavajući mu da poziva eksterne alate, kao što je pretraga slika, kada interni resursi znanja nisu dovoljni. Obe funkcije su dostupne kroz parser za rezonovanje i parser za pozivanje alata prilikom implementacije.
Performanse i pozicioniranje
ERNIE-4.5-VL-28B-A3B-Thinking postiže izuzetne rezultate u poređenju sa drugim modelima, istovremeno održavajući efikasnost.
- Poređenje sa konkurencijom: Model pokazuje konkurentne ili superiorne performanse u odnosu na Qwen-2.5-VL-7B i Qwen-2.5-VL-32B na mnogim benčmarcima, iako koristi manji broj aktivnih parametara.
- Dva režima rada: Modeli iz ERNIE-4.5-VL familije podržavaju "thinking" (rezonujući) i "non-thinking" (nerezonujući) režim. Režim "thinking" značajno poboljšava performanse na zadacima koji zahtevaju složeno rezonovanje, dok zadržava visok kvalitet percepcije.
- Interni benčmarci: Prema istraživačima iz kompanije Baidu, performanse "Thinking" varijante se približavaju performansama vodećih industrijskih modela na internim multimodalnim benčmarcima.
Licenciranje, pmplementacija i primena
Model je dizajniran da bude praktičan i dostupan za komercijalnu upotrebu.
- Licenca: Objavljen je pod permisivnom Apache License 2.0.
- Podrška za implementaciju: Moguće ga je implementirati putem popularnih biblioteka kao što su transformers, vLLM i FastDeploy.
- Fino podešavanje (Fine-tuning): Podržano je fino podešavanje pomoću ERNIEKit alata, koji uključuje metode kao što su SFT (Supervised Fine-Tuning), LoRA i DPO (Direct Preference Optimization).
- Ciljne primene: Model je direktno usmeren na stvarne radne zadatke u oblastima analitike i razumevanja multimodalnog sadržaja, kao što su dokumenti, grafikoni i video zapisi.
Tabela sa specifikacijama modela
| Model | Faza treninga | Ukupno / aktivnih parametara | Modaliteti | Dužina konteksta (tokeni) |
| ERNIE-4.5-VL-28B-A3B-Base | Pred-trening | 28B ukupno, 3B aktivno po tokenu | Tekst, Vizuelno | 131,072 |
| ERNIE-4.5-VL-28B-A3B (PT) | Post-trening (chat model) | 28B ukupno, 3B aktivno po tokenu | Tekst, Vizuelno | 131,072 |
| ERNIE-4.5-VL-28B-A3B-Thinking | Srednji trening orijentisan na rezonovanje | 28B arhitektura, 3B aktivno po tokenu, 30B veličina HF modela | Tekst, Vizuelno | 131,072 |
| Qwen2.5-VL-7B-Instruct | Post-trening (vizuelno-jezički model) | ≈8B ukupno (klasa 7B) | Tekst, Slika, Video | 32,768 |
| Qwen2.5-VL-32B-Instruct | Post-trening i fino podešavanje sa potkrepljivanjem | 33B ukupno | Tekst, Slika, Video | 32,768 |
Izvor: marktechpost.com
#ERNIE #Baidu
Komentari
Nema komentara. Šta vi mislite o ovome?