Generatywna sztuczna inteligencja już kolejny rok z rzędu budzi zachwyt jako jedna z najprężniej rozwijających się i najbardziej przełomowych technologii. Jest ona łączona przez Microsoft z wieloma produktami i interfejsami, takimi jak czaty, edytory, aplikacje produktywne, a nawet system operacyjny Windows. Jednocześnie mogą powstawać (i powstają) nowe agenty AI – także od zewnętrznych deweloperów. Microsoft udostępnił właśnie nowe środowisko do ich testowania.
Nowy benchmark, udostępniony w GitHub przez zespół deweloperów z Microsoft oraz pracowników uniwersytetów, nosi nazwę "Windows Agent Arena", a jego podtytuł brzmi "Evaluating Multi-Modal OS Agents at Scale". Zgodnie z opisem jest to skalowalny, otwartoźródłowy framework do testowania i rozwijania agentów AI, które mogą wnioskować, planować i działać na PC, używając dużych modeli językowych. Framework sprawdza, jak dobrze i szybko agent AI wykonuje zadania w aplikacjach Windows, których na co dzień używają ludzie. To między innymi przeglądarki Microsoft Edge i Google Chrome; funkcje Windowsa, takie jak Eksplorator plików i Ustawienia; aplikacje programistyczne, takie jak Visual Studio Code; proste, preinstalowane aplikacje, takie jak Notatnik, Zegar i Paint, oraz odtwarzacze, takie jak VLC Player.
Windows Agent Arena powstał z powodu zapotrzebowania na benchmark, który nie byłby ograniczony do jednej modalności lub domeny (np. tekst, nawigacja w Internecie, Q&A, kodowanie) i dawałby szybkie rezultaty. Benchmark ten skupia się ekskluzywnie na systemie Windows, w którym agenty mogą działać swobodnie, używając tych samych narzędzi, przeglądarek i aplikacji, które są dostępne dla ludzkich użytkowników. Deweloperzy z Microsoft zaadaptowali framewok OSWorld, aby stworzyć 150+ różnych zadań w Windows, wymagających od agenta AI umiejętności planowania, rozumienia zawartości ekranu i użycia narzędzi.
Przypomnijmy, że takim nadwornym agentem AI w Windows jest Windows Copilot - asystent AI wbudowany w system operacyjny.