Gemini 3.1 Flash Live: Real-time glasovni model sa niskom latencijom, video kontekstom i alatima za agente

Google je Gemini 3.1 Flash Live pustio u preview za developere preko Gemini Live API-ja u Google AI Studiu. Model je usmeren na nisku latenciju, prirodniji glas i pouzdanije real-time glasovne interakcije; Google ga opisuje kao svoj najkvalitetniji audio/govorni model do sada. Uz nativnu obradu multimodalnih tokova, release daje tehničku osnovu za voice-first agente koji ne moraju da “čekaju red” klasične arhitekture okrenute turama (turn-based LLM).

Da li je ovo kraj „wait-time stack“-a?

Glavni problem ranijih glasovnih rešenja bio je „wait-time stack“: Voice Activity Detection (VAD) čeka tišinu, zatim prepisivanje (STT), pa generisanje (LLM), pa sintetisanje govora (TTS). Kad AI konačno progovori, korisnik je često već „prešao na sledeću misao“.

Gemini 3.1 Flash Live taj lanac sužava kroz nativnu audio obradu. Model ne “čita” samo transkript: direktno obrađuje akustičke nijanse. Prema Googlovim internim merama, značajno je bolji u prepoznavanju visine tona i tempa govora od ranijeg 2.5 Flash Native Audio.

Posebno se ističe u bučnim uslovima: u testovima sa saobraćajnom bukom ili razgovorima u pozadini, model je preciznije odvajao relevantan govor od okoline. To je bitno za mobilne asistente i korisničku podršku u realnom svetu, ne samo u “čistoj” studijskoj akustici.

Multimodal Live API

Za developere, ključna promena je u Multimodal Live API-ju: stateful, bidirekciono strimovanje preko WebSocket (WSS) — trajna konekcija između klijenta i modela.

Za razliku od klasičnog REST pristupa “jedan zahtev po odgovoru”, Live API podržava kontinuirani tok podataka. Ukratko, pipeline izgleda ovako:

Audio ulaz: očekuje se sirov 16-bit PCM na 16 kHz, little-endian.
Audio izlaz: vraća sirov PCM audio, što zaobilazi latenciju “posebnog TTS koraka”.
Vizuelni kontekst: moguće je strimovati video frejmove kao pojedinačne JPEG ili PNG slike, oko 1 FPS.
Protokol: jedan serverski događaj može da grupiše više delova sadržaja odjednom (npr. audio chunk + odgovarajući transkript), što pojednostavljuje sinhronizaciju na klijentu.

Model podržava i Barge-in: korisnik može da prekine AI usred rečenice. Pošto je vezi bidirekciona, API može brzo da zaustavi generisanje audio bafera i da obradi novi ulazni audio — bliže prirodnom dijalogu.

Benčmark: agentno rezonovanje iz audio ulaza

Google ističe i korisnost, ne samo brzinu. Prikazan je rezultat na ComplexFuncBench Audio: meri sposobnost modela da radi višekoračno pozivanje funkcija (function calling) sa različitim ograničenjima, isključivo iz audio ulaza.

Gemini 3.1 Flash Live postiže 90,8% na ovom benčmarku. Praktična implikacija: glasovni agent može da “razmisli” kroz složenije korake (npr. pronađe određene fakture i pošalje email prema pragu cene) bez obaveznog tekstualnog posrednika za razmišljanje.

Benčmark	Rezultat	Šta meri
ComplexFuncBench Audio	90,8%	Višekoračno function calling iz čistog audio ulaza
Audio MultiChallenge	36,1% (uz thinking)	Praćenje instrukcija u bučnoj / prekinutoj govoru
Kontekst	128k tokena	Memorija sesije + definicije alata

Performanse na Audio MultiChallenge (36,1% uz uključeno “thinking”) naglašavaju otpornost u uslovima koji liče na stvarni svet: prekidi, škripanje u govoru, buka u pozadini.

Izvor za detalje: Google blog — Gemini 3.1 Flash Live

Kontrola za developere: `thinkingLevel`

Istaknuta opcija je podešavanje „dubine“ rezonovanja preko parametra thinkingLevel: minimal, low, medium, high.

Minimal: podrazumevano u Live sesijama; fokus na najnižu moguću TTFT (Time to First Token).
High: viša latencija, ali dublje “thinking” pre odgovora — korisno za složenije probleme ili zadatke preko live video konteksta.

Dokumentacija i “Gemini Skills”

Brz razvoj API-ja znači da je teško držati uputstva “svežim” u alatima za kodiranje. Google održava repozitorijum google-gemini/gemini-skills — skup “skills” (kuriran kontekst/dokumentacija) za ubacivanje u prompt kod asistenata.

Postoji posebna veština gemini-live-api-dev, fokusirana na WebSocket sesije i rukovanje audio/video blobovima. Prema izveštajima iz repozitorijuma, relevantna skill je poboljšala tačnost generisanja koda na 87% (Gemini 3 Flash) i 96% (Gemini 3 Pro).

Šta da zapamtite

Nativni multimodalni pristup smanjuje klasičan STT→LLM→TTS “štok”, što pomaže prirodnijem govoru i boljem hvatanju nijansi.
WSS strimovanje omogućava Barge-in i paralelniji tok audio/video/transkripta.
Agentno function calling iz glasa jeste glavna “teška” tačka; Google navodi jaku ocenu na ComplexFuncBench Audio.
thinkingLevel balansira brzinu razgovora i dubinu razmišljanja, uz 128k kontekst.
Preview stanje: očekujte ograničenja u produkciji — u tekstu se navodi PCM format (16 kHz ulaz / 24 kHz izlaz), trenutno samo sinhrono function calling i specifično grupisanje delova sadržaja.

Izvor: MarkTechPost — Google Releases Gemini 3.1 Flash Live

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija

Kategorije

AI alati

Tagovi

Kontakt

O sajtu AIZONA

Gemini 3.1 Flash Live: Real-time glasovni model sa niskom latencijom, video kontekstom i alatima za agente

Da li je ovo kraj „wait-time stack“-a?

Multimodal Live API

Benčmark: agentno rezonovanje iz audio ulaza

Kontrola za developere: `thinkingLevel`

Dokumentacija i “Gemini Skills”

Šta da zapamtite

Komentari

KATEGORIJE

NOVA IZDANJA

Da li je ovo kraj „wait-time stack“-a?

Multimodal Live API

Benčmark: agentno rezonovanje iz audio ulaza

Kontrola za developere: thinkingLevel

Dokumentacija i “Gemini Skills”

Šta da zapamtite

Komentari

KATEGORIJE

NOVA IZDANJA

Kontrola za developere: `thinkingLevel`