Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija

Misleći modle kompanije Baidu: ERNIE-4.5-VL-28B-A3B

Oblast: Modeli |          
Subota, 15. novembar 2025. 08:00
Autor: AIZona
Tagovi: Erine, Baidu

Misleći modle kompanije Baidu: ERNIE-4.5-VL-28B-A3B

Kompanija Baidu je objavila ERNIE-4.5-VL-28B-A3B-Thinking, novi, kompaktan i open-source multimodalni model za rezonovanje iz ERNIE-4.5 familije. Ključna inovacija modela je njegova arhitektura Mešavine Eksperata (Mixture of Experts - MoE) koja sadrži približno 30 milijardi ukupnih parametara, ali aktivira samo 3 milijarde parametara po tokenu. Ovaj pristup omogućava modelu da postigne performanse na nivou znatno većih modela, dok zadržava računarski i memorijski profil modela klase 3B.

Model je posebno optimizovan za napredno razumevanje dokumenata, grafikona i video zapisa, zahvaljujući dodatnoj fazi treninga usmerenoj na vizuelno-jezičko rezonovanje i primeni multimodalnog učenja sa potkrepljivanjem (multimodal reinforcement learning). Njegove istaknute sposobnosti uključuju "Thinking with Images" (Razmišljanje sa slikama), koje omogućava modelu da iterativno analizira delove slike, i "Tool Utilization" (Korišćenje alata), koje mu daje mogućnost pozivanja eksternih alata poput pretrage slika.

U poređenju sa konkurentskim modelima kao što su Qwen-2.5-VL-7B i Qwen-2.5-VL-32B, ERNIE-4.5-VL-28B-A3B-Thinking pokazuje konkurentne ili superiorne performanse uz manji broj aktivnih parametara. Objavljen pod Apache 2.0 licencom i sa podrškom za vodeće platforme za implementaciju, ovaj model predstavlja praktično rešenje za komercijalne primene koje zahtevaju efikasno multimodalno rezonovanje u analitičkim zadacima.

Detaljna analiza

Arhitektura i efikasnost

ERNIE-4.5-VL-28B-A3B-Thinking je izgrađen na postojećoj ERNIE-4.5-VL-28B-A3B arhitekturi, koja koristi heterogeni multimodalni dizajn Mešavine Eksperata (MoE). Ova arhitektura kombinuje deljene parametre za tekstualne i vizuelne modalitete sa ekspertima specifičnim za svaki modalitet.

  • Struktura parametara: Model ima ukupno oko 30 milijardi parametara, dok arhitektura pripada grani od 28 milijardi vizuelno-jezičkih (VL) parametara.
  • Efikasnost aktivacije: Ključna prednost je A3B šema rutiranja, koja aktivira samo 3 milijarde parametara po svakom tokenu.
  • Operativne prednosti: Ovakav dizajn omogućava da model funkcioniše sa računarskim i memorijskim zahtevima koji odgovaraju modelima klase 3B, dok istovremeno zadržava veći kapacitet za složeno rezonovanje.

Trening i optimizacija

Model prolazi kroz specijalizovane faze treninga kako bi se poboljšale njegove sposobnosti rezonovanja, posebno za guste vizuelne informacije poput dokumenata i grafikona.

  • Srednja faza treninga: Model se dodatno obučava na velikom korpusu za vizuelno-jezičko rezonovanje. Cilj ove faze je poboljšanje moći reprezentacije i semantičkog usklađivanja između vizuelnih i jezičkih modaliteta.
  • Multimodalno učenje sa potkrepljivanjem: Koriste se napredne strategije poput GSPO i IcePop, zajedno sa dinamičkim uzorkovanjem težine zadataka (dynamic difficulty sampling). Ova tehnika stabilizuje trening MoE arhitekture i usmerava model ka rešavanju težih primera.

Ključne sposobnosti i funkcionalnosti

Baidu pozicionira ovaj model kao lagan mehanizam za multimodalno rezonovanje. Njegove zvanično navedene sposobnosti su:

  • Vizuelno rezonovanje
  • STEM rezonovanje (nauka, tehnologija, inženjerstvo i matematika)
  • Vizuelno uzemljenje (visual grounding), uključujući generisanje JSON graničnih okvira
  • Razumevanje video zapisa, sa lokalizacijom segmenata i odgovorima sa vremenskim oznakama
  • Thinking with Images: Ova ključna sposobnost omogućava modelu da se fokusira na specifične regione slike, rezonuje na osnovu isečenih prikaza i zatim integriše te lokalne opservacije u konačan odgovor.
  • Tool Utilization: Proširuje mogućnosti modela omogućavajući mu da poziva eksterne alate, kao što je pretraga slika, kada interni resursi znanja nisu dovoljni. Obe funkcije su dostupne kroz parser za rezonovanje i parser za pozivanje alata prilikom implementacije.

Performanse i pozicioniranje

ERNIE-4.5-VL-28B-A3B-Thinking postiže izuzetne rezultate u poređenju sa drugim modelima, istovremeno održavajući efikasnost.

  • Poređenje sa konkurencijom: Model pokazuje konkurentne ili superiorne performanse u odnosu na Qwen-2.5-VL-7B i Qwen-2.5-VL-32B na mnogim benčmarcima, iako koristi manji broj aktivnih parametara.
  • Dva režima rada: Modeli iz ERNIE-4.5-VL familije podržavaju "thinking" (rezonujući) i "non-thinking" (nerezonujući) režim. Režim "thinking" značajno poboljšava performanse na zadacima koji zahtevaju složeno rezonovanje, dok zadržava visok kvalitet percepcije.
  • Interni benčmarci: Prema istraživačima iz kompanije Baidu, performanse "Thinking" varijante se približavaju performansama vodećih industrijskih modela na internim multimodalnim benčmarcima.

Licenciranje, pmplementacija i primena

Model je dizajniran da bude praktičan i dostupan za komercijalnu upotrebu.

  • Licenca: Objavljen je pod permisivnom Apache License 2.0.
  • Podrška za implementaciju: Moguće ga je implementirati putem popularnih biblioteka kao što su transformers, vLLM i FastDeploy.
  • Fino podešavanje (Fine-tuning): Podržano je fino podešavanje pomoću ERNIEKit alata, koji uključuje metode kao što su SFT (Supervised Fine-Tuning), LoRA i DPO (Direct Preference Optimization).
  • Ciljne primene: Model je direktno usmeren na stvarne radne zadatke u oblastima analitike i razumevanja multimodalnog sadržaja, kao što su dokumenti, grafikoni i video zapisi.

Tabela sa specifikacijama modela

ModelFaza treningaUkupno / aktivnih parametaraModalitetiDužina konteksta (tokeni)
ERNIE-4.5-VL-28B-A3B-BasePred-trening28B ukupno, 3B aktivno po tokenuTekst, Vizuelno131,072
ERNIE-4.5-VL-28B-A3B (PT)Post-trening (chat model)28B ukupno, 3B aktivno po tokenuTekst, Vizuelno131,072
ERNIE-4.5-VL-28B-A3B-ThinkingSrednji trening orijentisan na rezonovanje28B arhitektura, 3B aktivno po tokenu, 30B veličina HF modelaTekst, Vizuelno131,072
Qwen2.5-VL-7B-InstructPost-trening (vizuelno-jezički model)≈8B ukupno (klasa 7B)Tekst, Slika, Video32,768
Qwen2.5-VL-32B-InstructPost-trening i fino podešavanje sa potkrepljivanjem33B ukupnoTekst, Slika, Video32,768

Izvor: marktechpost.com

#ERNIE #Baidu

Komentari

Nema komentara. Šta vi mislite o ovome?