Ko nadgleda AI agente?
Ovaj tekst analizira izazove u operativnom upravljanju i nadzoru veštačke inteligencije, sa posebnim fokusom na sisteme sa više autonomnih agenata koji se sve češće koriste u produkciji. Autor naglašava da trenutna infrastruktura ne pruža dovoljnu vidljivost u složene procese donošenja odluka, što dovodi do nepredviđenih troškova, latentnosti i problema sa bezbednošću podataka. Izvor sugeriše da tradicionalni alati za praćenje nisu adekvatni za dinamičke grafove izvršavanja koje ovi agenti kreiraju tokom rada. Umesto pukog beleženja pojedinačnih poziva, neophodno je razviti rešenja koja prepoznaju odstupanja od normalnog ponašanja sistema. Zaključak je da se AI agenti moraju tretirati kao ozbiljna infrastruktura koja zahteva transparentnost i strogu kontrolu kako bi ostala pouzdana. Trenutni jaz između lake implementacije i teškog upravljanja predstavlja kritičnu tačku za budući razvoj tehnologije.
Poslednjih nekoliko meseci svedočimo tihoj, ali opasnoj migraciji: AI agenti su napustili laboratorije i ušli u stvarnu produkciju. Frejmvorkovi poput CrewAI, AutoGen i LangGraph više nisu rezervisani za impresivne demo snimke na konferencijama; oni danas pokreću kritične sisteme za odgovor na incidente, interne kopilote i kompleksne automatizacione pajplajne. Međutim, kao neko ko je prošao kroz tranzicije sa monolita na mikroservise, vidim prepoznatljiv obrazac: ponovo gomilamo operativni dug sa ogromnom kamatom. Dok je ove sisteme neverovatno lako sklopiti, njihovo održavanje u produkcionom okruženju postaje arhitektonski košmar.
Operativni jaz: Vratili smo se deset godina unazad
Nalazimo se u apsurdnoj situaciji gde timovi koji implementiraju multi-agentske sisteme danas imaju manju vidljivost nad svojom infrastrukturom nego što su je imali nad mikroservisima pre jedne decenije. Operativni nivo opservabilnosti je alarmantno nizak, a inženjeri se vraćaju u eru "slepe vere" u sisteme.
"Timovi veruju ishodima bez razumevanja puta koji je do njih doveo. To može proći na demo prezentaciji, ali je neodrživo kada sistemi počnu da barataju stvarnim podacima, korisnicima i novcem."
Leteći naslepo, rizikujemo ne samo performanse, već i integritet celokupne infrastrukture, jer prihvatamo rezultate bez ikakve svesti o logičkim stranputicama koje je agent prešao.
Problem "Tihih kvarova": Kada ništa ne puca, a sve se raspada
U svetu tradicionalnog softvera, kvar je jasan – sistem "pukne", alarm se aktivira, a inženjer dobije stack trace. Kod AI agenata, fatalne greške su retkost. Umesto toga, suočavamo se sa "tihim kvarovima" gde ništa ne prijavljuje grešku, a sistem ulazi u spiralu neefikasnosti. Dolazi do fenomena gde jedan agent odbija zadatak, drugi ga reformatira, a treći ponovo pokušava, ulazeći u beskonačne petlje retri-logike koja ne aktivira nijedan tradicionalni monitoring.
Moshe Bar to precizno definiše: "Zahtev koji bi trebalo da traje jedan ili dva koraka pretvara se u desetine poziva modela... Ništa se ne ruši, pa se ništa ne alarmira. Samo primetite da stvari deluju... čudno."
Latencija raste, troškovi modela eksponencijalno skaču, a vaši dashboardi ostaju zeleni jer se tehnički nijedan API poziv nije završio greškom 500. To nije inženjering; to je gubitak kontrole.
Evolutivni grafovi izvršavanja
Zašto tradicionalna opservabilnost (Prometheus, Grafana, standardni "trace"-ovi) ovde zakazuje? Zato što agenti nisu statični mikroservisi gde A uvek zove B. Oni su živi, evoluirajući grafovi izvršavanja. U agentskom sistemu, putanja odluke se gradi u realnom vremenu na osnovu nedeterminističkih izlaza LLM-a. Posmatranje pojedinačnih API poziva je kao da pokušavate da razumete film gledajući jedan po jedan nasumičan frejm – gubite kontekst, nameru i uzročno-posledičnu vezu. Tradicionalni trace-ovi vide samo izolovanu tačku, ali ne vide kako se "kod" (odnosno graf odlučivanja) samostalno modifikovao tokom izvršavanja zadatka.
Suptilno curenje podataka: Nova granica bezbednosti
Bezbednost u eri agenata više nije samo pitanje SQL injekcije ili otvorenog porta. Suočavamo se sa "postepenom propagacijom" osetljivih informacija. Opasnost je u tome što svaki individualni korak u lancu deluje potpuno usklađeno sa bezbednosnim polisama. Jedan agent pročita osetljiv podatak; drugi agent napravi sažetak tog podatka; treći agent taj sažetak uključi u upit ka eksternom modelu. Nijedan pojedinačni korak nije očigledno kršenje pravila, ali emergentno ponašanje sistema kao celine rezultira curenjem podataka. Ovi suptilni tokovi su nevidljivi za standardne alate jer se kršenje bezbednosti dešava kroz transformaciju informacija, a ne kroz jedan neovlašćen pristup.
Detekcija odstupanja (Drift) kao jedini spas
U nedeterminističkom okruženju, statična pravila i pragovi (thresholds) su beskorisni. Jedini način da povratimo kontrolu je razumevanje "normalnosti" sistema. Iako su agenti fleksibilni, oni tokom vremena razvijaju specifične obrasce: tipične dubine rezonovanja i uobičajene tokove podataka.
Pravi operativni signal za uzbunu nije greška u logu, već "drift" – trenutak kada agent krene putem kojim nikada ranije nije išao, počne da pristupa podacima koje obično ignoriše ili neočekivano proširi lanac odlučivanja na desetine koraka. Monitoring u agentskoj eri mora biti fokusiran na detekciju ovih anomalija u ponašanju, a ne na proste provere statusnih kodova.
Zaključak: Da li smo spremni za odgovornost?
Kao arhitekte, moramo prestati da AI agente tretiramo kao magične crne kutije i početi da ih tretiramo kao inženjerske komponente koje zahtevaju rigoroznu kontrolu i vidljivost. Trenutni nedostatak opservabilnosti nije samo "dečija bolest" nove tehnologije; to je sistemski rizik koji može ugroziti stabilnost i bezbednost čitave infrastrukture.
Pitanje nije da li će vaši agentski sistemi otkazati, već da li ćete uopšte primetiti kada uđu u nevidljivi kolaps? Ako se oslanjate na alate iz prošle decenije, odgovor je verovatno – ne. Vreme je da izgradimo infrastrukturu koja je dostojna agentske ere, pre nego što nas operativni dug potpuno blokira.
Izvor: The New Stack
Komentari
Nema komentara. Šta vi mislite o ovome?