Misleći modle kompanije Baidu: ERNIE-4.5-VL-28B-A3B

Kompanija Baidu je objavila ERNIE-4.5-VL-28B-A3B-Thinking, novi, kompaktan i open-source multimodalni model za rezonovanje iz ERNIE-4.5 familije. Ključna inovacija modela je njegova arhitektura Mešavine Eksperata (Mixture of Experts - MoE) koja sadrži približno 30 milijardi ukupnih parametara, ali aktivira samo 3 milijarde parametara po tokenu. Ovaj pristup omogućava modelu da postigne performanse na nivou znatno većih modela, dok zadržava računarski i memorijski profil modela klase 3B.

Model je posebno optimizovan za napredno razumevanje dokumenata, grafikona i video zapisa, zahvaljujući dodatnoj fazi treninga usmerenoj na vizuelno-jezičko rezonovanje i primeni multimodalnog učenja sa potkrepljivanjem (multimodal reinforcement learning). Njegove istaknute sposobnosti uključuju "Thinking with Images" (Razmišljanje sa slikama), koje omogućava modelu da iterativno analizira delove slike, i "Tool Utilization" (Korišćenje alata), koje mu daje mogućnost pozivanja eksternih alata poput pretrage slika.

U poređenju sa konkurentskim modelima kao što su Qwen-2.5-VL-7B i Qwen-2.5-VL-32B, ERNIE-4.5-VL-28B-A3B-Thinking pokazuje konkurentne ili superiorne performanse uz manji broj aktivnih parametara. Objavljen pod Apache 2.0 licencom i sa podrškom za vodeće platforme za implementaciju, ovaj model predstavlja praktično rešenje za komercijalne primene koje zahtevaju efikasno multimodalno rezonovanje u analitičkim zadacima.

Detaljna analiza

Arhitektura i efikasnost

ERNIE-4.5-VL-28B-A3B-Thinking je izgrađen na postojećoj ERNIE-4.5-VL-28B-A3B arhitekturi, koja koristi heterogeni multimodalni dizajn Mešavine Eksperata (MoE). Ova arhitektura kombinuje deljene parametre za tekstualne i vizuelne modalitete sa ekspertima specifičnim za svaki modalitet.

Struktura parametara: Model ima ukupno oko 30 milijardi parametara, dok arhitektura pripada grani od 28 milijardi vizuelno-jezičkih (VL) parametara.
Efikasnost aktivacije: Ključna prednost je A3B šema rutiranja, koja aktivira samo 3 milijarde parametara po svakom tokenu.
Operativne prednosti: Ovakav dizajn omogućava da model funkcioniše sa računarskim i memorijskim zahtevima koji odgovaraju modelima klase 3B, dok istovremeno zadržava veći kapacitet za složeno rezonovanje.

Trening i optimizacija

Model prolazi kroz specijalizovane faze treninga kako bi se poboljšale njegove sposobnosti rezonovanja, posebno za guste vizuelne informacije poput dokumenata i grafikona.

Srednja faza treninga: Model se dodatno obučava na velikom korpusu za vizuelno-jezičko rezonovanje. Cilj ove faze je poboljšanje moći reprezentacije i semantičkog usklađivanja između vizuelnih i jezičkih modaliteta.
Multimodalno učenje sa potkrepljivanjem: Koriste se napredne strategije poput GSPO i IcePop, zajedno sa dinamičkim uzorkovanjem težine zadataka (dynamic difficulty sampling). Ova tehnika stabilizuje trening MoE arhitekture i usmerava model ka rešavanju težih primera.

Ključne sposobnosti i funkcionalnosti

Baidu pozicionira ovaj model kao lagan mehanizam za multimodalno rezonovanje. Njegove zvanično navedene sposobnosti su:

Vizuelno rezonovanje
STEM rezonovanje (nauka, tehnologija, inženjerstvo i matematika)
Vizuelno uzemljenje (visual grounding), uključujući generisanje JSON graničnih okvira
Razumevanje video zapisa, sa lokalizacijom segmenata i odgovorima sa vremenskim oznakama
Thinking with Images: Ova ključna sposobnost omogućava modelu da se fokusira na specifične regione slike, rezonuje na osnovu isečenih prikaza i zatim integriše te lokalne opservacije u konačan odgovor.
Tool Utilization: Proširuje mogućnosti modela omogućavajući mu da poziva eksterne alate, kao što je pretraga slika, kada interni resursi znanja nisu dovoljni. Obe funkcije su dostupne kroz parser za rezonovanje i parser za pozivanje alata prilikom implementacije.

Performanse i pozicioniranje

ERNIE-4.5-VL-28B-A3B-Thinking postiže izuzetne rezultate u poređenju sa drugim modelima, istovremeno održavajući efikasnost.

Poređenje sa konkurencijom: Model pokazuje konkurentne ili superiorne performanse u odnosu na Qwen-2.5-VL-7B i Qwen-2.5-VL-32B na mnogim benčmarcima, iako koristi manji broj aktivnih parametara.
Dva režima rada: Modeli iz ERNIE-4.5-VL familije podržavaju "thinking" (rezonujući) i "non-thinking" (nerezonujući) režim. Režim "thinking" značajno poboljšava performanse na zadacima koji zahtevaju složeno rezonovanje, dok zadržava visok kvalitet percepcije.
Interni benčmarci: Prema istraživačima iz kompanije Baidu, performanse "Thinking" varijante se približavaju performansama vodećih industrijskih modela na internim multimodalnim benčmarcima.

Licenciranje, pmplementacija i primena

Model je dizajniran da bude praktičan i dostupan za komercijalnu upotrebu.

Licenca: Objavljen je pod permisivnom Apache License 2.0.
Podrška za implementaciju: Moguće ga je implementirati putem popularnih biblioteka kao što su transformers, vLLM i FastDeploy.
Fino podešavanje (Fine-tuning): Podržano je fino podešavanje pomoću ERNIEKit alata, koji uključuje metode kao što su SFT (Supervised Fine-Tuning), LoRA i DPO (Direct Preference Optimization).
Ciljne primene: Model je direktno usmeren na stvarne radne zadatke u oblastima analitike i razumevanja multimodalnog sadržaja, kao što su dokumenti, grafikoni i video zapisi.

Tabela sa specifikacijama modela

Model	Faza treninga	Ukupno / aktivnih parametara	Modaliteti	Dužina konteksta (tokeni)
ERNIE-4.5-VL-28B-A3B-Base	Pred-trening	28B ukupno, 3B aktivno po tokenu	Tekst, Vizuelno	131,072
ERNIE-4.5-VL-28B-A3B (PT)	Post-trening (chat model)	28B ukupno, 3B aktivno po tokenu	Tekst, Vizuelno	131,072
ERNIE-4.5-VL-28B-A3B-Thinking	Srednji trening orijentisan na rezonovanje	28B arhitektura, 3B aktivno po tokenu, 30B veličina HF modela	Tekst, Vizuelno	131,072
Qwen2.5-VL-7B-Instruct	Post-trening (vizuelno-jezički model)	≈8B ukupno (klasa 7B)	Tekst, Slika, Video	32,768
Qwen2.5-VL-32B-Instruct	Post-trening i fino podešavanje sa potkrepljivanjem	33B ukupno	Tekst, Slika, Video	32,768

Izvor: marktechpost.com

#ERNIE #Baidu

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija