Windows Agent Arena - benchmark do testowania agentów AI dla Windows

Generatywna sztuczna inteligencja już kolejny rok z rzędu budzi zachwyt jako jedna z najprężniej rozwijających się i najbardziej przełomowych technologii. Jest ona łączona przez Microsoft z wieloma produktami i interfejsami, takimi jak czaty, edytory, aplikacje produktywne, a nawet system operacyjny Windows. Jednocześnie mogą powstawać (i powstają) nowe agenty AI – także od zewnętrznych deweloperów. Microsoft udostępnił właśnie nowe środowisko do ich testowania.

Nowy benchmark, udostępniony w GitHub przez zespół deweloperów z Microsoft oraz pracowników uniwersytetów, nosi nazwę "Windows Agent Arena", a jego podtytuł brzmi "Evaluating Multi-Modal OS Agents at Scale". Zgodnie z opisem jest to skalowalny, otwartoźródłowy framework do testowania i rozwijania agentów AI, które mogą wnioskować, planować i działać na PC, używając dużych modeli językowych. Framework sprawdza, jak dobrze i szybko agent AI wykonuje zadania w aplikacjach Windows, których na co dzień używają ludzie. To między innymi przeglądarki Microsoft Edge i Google Chrome; funkcje Windowsa, takie jak Eksplorator plików i Ustawienia; aplikacje programistyczne, takie jak Visual Studio Code; proste, preinstalowane aplikacje, takie jak Notatnik, Zegar i Paint, oraz odtwarzacze, takie jak VLC Player.

Windows Agent Arena powstał z powodu zapotrzebowania na benchmark, który nie byłby ograniczony do jednej modalności lub domeny (np. tekst, nawigacja w Internecie, Q&A, kodowanie) i dawałby szybkie rezultaty. Benchmark ten skupia się ekskluzywnie na systemie Windows, w którym agenty mogą działać swobodnie, używając tych samych narzędzi, przeglądarek i aplikacji, które są dostępne dla ludzkich użytkowników. Deweloperzy z Microsoft zaadaptowali framewok OSWorld, aby stworzyć 150+ różnych zadań w Windows, wymagających od agenta AI umiejętności planowania, rozumienia zawartości ekranu i użycia narzędzi.

Przypomnijmy, że takim nadwornym agentem AI w Windows jest Windows Copilot - asystent AI wbudowany w system operacyjny.

Źródło: https://microsoft.github.io/WindowsAgentArena/

Windows Agent Arena - benchmark do testowania agentów AI dla Windows

Autor: Krzysztof Sulikowski

Opublikowano: 9/16/2024, 5:30 PM

Liczba odsłon: 758

Aktualności

Artykuły

Wydarzenia