Kimi K2.5: Arhitektura i performanse modela Agent Swarm
Moonshot AI je 27. januara 2026. godine predstavio Kimi K2.5, open-source vizuelni agentički inteligentni model koji integriše masivnu Mixture of Experts (MoE) arhitekturu sa izvornim multimodalnim mogućnostima. Ključna inovacija modela je Agent Swarm, paralelni multi-agentski sistem obučen putem pojačanog učenja (PARL), koji omogućava koordinaciju do 100 pod-agenata istovremeno. Sa 1 bilion (1T) ukupnih parametara i prozorom konteksta od 256K tokena, Kimi K2.5 postavlja nove standarde u kodiranju, multimodalnom zaključivanju i dubokom istraživanju veba, nadmašujući u specifičnim agentičkim testovima modele kao što su GPT 5.2 i Claude 4.5.
Arhitektura i tehničke specifikacije
Kimi K2.5 je dizajniran kao robustan sistem za složene radne tokove koji zahtevaju dugačke tragove alata i obradu obimne dokumentacije.
Struktura Mixture of Experts (MoE)
Model koristi naprednu MoE arhitekturu sa sledećim parametrima:
- Ukupan broj parametara: 1 bilion (1T).
- Aktivirani parametri: Približno 32 milijarde (32B) po tokenu.
- Konfiguracija eksperata: Ukupno 384 eksperta, pri čemu se bira 8 eksperata po tokenu uz jedan deljeni ekspert.
- Slojevi i pažnja: Mreža se sastoji od 61 sloja, koristi MLA (Multi-head Latent Attention) mehanizam pažnje sa 64 glave i skrivenom veličinom od 7168.
- Aktivaciona funkcija i vokabular: Koristi se SwiGLU funkcija, dok vokabular tokenizatora obuhvata 160.000 jedinica.
Izvorna multimodalnost i trening
Za razliku od modela koji naknadno integrišu viziju, Kimi K2.5 je od početka obučen kao jedinstvena multimodalna osnova:
- MoonViT enkoder: Sadrži oko 400 miliona parametara za obradu vizuelnih podataka.
- Trening podaci: Model je prošao kroz kontinuirani pre-trening na oko 15 biliona (15T) mešovitih vizuelnih i tekstualnih tokena na bazi Kimi K2 modela.
- Kontekstualni prozor: Podržava do 256.000 tokena, što je ključno za višestepene istraživačke procese i analizu dugačkih dokumenata.
Agent Swarm i paralelno pojačano učenje (PARL)
Najznačajnija karakteristika Kimi K2.5 je Agent Swarm, sistem koji omogućava agentu orkestratoru da dekomponuje kompleksne ciljeve na brojne podzadatke.
Efikasnost i skalabilnost
- Kapacitet swarm-a: Sistem može upravljati sa do 100 pod-agenata unutar jednog zadatka.
- Broj operacija: Podržava do 1.500 koordinisanih koraka ili poziva alata u jednom izvršavanju.
- Ubrzanje: Zahvaljujući paralelizmu, postignuto je oko 4,5 puta brže izvršavanje zadataka širokog pretraživanja u poređenju sa sistemima sa jednim agentom.
PARL i "Kritični koraci"
Trening putem Parallel Agent Reinforcement Learning (PARL) uvodi metriku pod nazivom Kritični koraci (Critical Steps). Sistem nagrađuje politike koje smanjuju broj serijskih koraka neophodnih za rešavanje zadatka, podstičući agente da granaju posao u paralelne procese uz održavanje konzistentnosti rezultata.
Sposobnosti u kodiranju i multimodalnom zaključivanju
Kimi K2.5 se pozicionira kao vodeći open-source model za zadatke gde generisanje koda zavisi od vizuelnog konteksta.
- Vizuelni razvoj (Frontend): Model može analizirati UI makete, snimke ekrana dizajna ili video zapise i na osnovu njih generisati strukturirani kod sa definisanim rasporedom, stilizacijom i logikom interakcije.
- Kros-modalno planiranje: Demonstrirana je sposobnost modela da analizira sliku slagalice, osmisli najkraći put za rešenje i napiše kod koji vizuelizuje to rešenje.
- Upravljanje specifikacijama: Zahvaljujući prozoru od 256K tokena, programeri mogu u jedan upit (prompt) uključiti dizajn, dokumentaciju proizvoda i postojeći kod, dok model vrši refaktorisanje usklađeno sa vizuelnim ograničenjima.
Analiza benchmark performansi
Kimi K2.5 ostvaruje visoke rezultate u različitim domenima, često nadmašujući etablirane zatvorene modele.
Agentički i istraživački testovi
| Benchmark | Rezultat (K2.5) | Napomena |
| HLE Full (sa alatima) | 50.2 | Visoka sposobnost rešavanja kompleksnih zadataka |
| BrowseComp | 74.9 | Standardno upravljanje kontekstom |
| BrowseComp (Agent Swarm) | 78.4 | Poboljšanje performansi kroz paralelizam |
U poređenju sa modelima GPT 5.2, Claude 4.5, Gemini 3 Pro i DeepSeek V3, Kimi K2.5 beleži najviše rezultate u ovim specifičnim agentičkim kategorijama.
Multimodalni i vizuelni testovi
- MMMU Pro: 78.5
- VideoMMMU: 86.6
- Model takođe pokazuje izuzetne performanse na testovima OmniDocBench, OCRBench i WorldVQA, što potvrđuje efikasnost MoonViT enkodera u razumevanju složenih dokumenata i video materijala.
Kodiranje i logika
- SWE Bench Verified: 76.8
- LiveCodeBench v6: 85.0
- AIME 2025 i GPQA Diamond: Visoki rezultati u "thinking" režimu rada, što ukazuje na snažne sposobnosti zaključivanja.
Implementacija i dostupnost
Kimi K2.5 je dizajniran za široku primenu u razvojnim okruženjima:
- Kompatibilnost: Podržava standardne stekove za inferenciju kao što su vLLM, SGLang i KTransformers (uz transformers verziju 4.57.1 ili noviju).
- Kvantizacija: Dostupne su INT4 kvantizovane varijante, bazirane na metodu iz Kimi K2 Thinking modela, što omogućava implementaciju na široko dostupnim (commodity) GPU jedinicama sa ograničenom memorijom.
Komentari
Nema komentara. Šta vi mislite o ovome?