Microsoft i OpenAI rozwijają agenty, które mogą wykonywać czynności bezpośrednio na komputerze użytkownika. Teraz taka funkcjonalność zaczęła być oferowana deweloperom i twórcom aplikacji poprzez Copilot Studio. Dzięki funkcji "Użycie komputera" ("Computer use") agenty AI będą mogły dokonywać interakcji na stronach internetowych i w aplikacjach. Wystarczy im zwykły interfejs graficzny i nie potrzebują do tego API.
Agenty Copilot Studio mogą działać wszędzie, gdzie jest GUI
Microsoft poinformował o dostępności "Computer use" w ramach wersji Research Preview ze wczesnym dostępem. Ta nowa funkcjonalność pozwoli agentom Microsoft Copilot Studio traktować strony internetowe i aplikacje jak narzędzia. Będą one mogły dokonywać interakcji z dowolnym systemem wyposażonym w graficzny interfejs użytkownika (GUI).
"Użycie komputera" pozwala agentom dokonywać interakcji z witrynami i aplikacjami desktopowymi poprzez klikanie przycisków, wybieranie menu i pisanie w polach na ekranie. To pozwala agentom wykonywać zadania, nawet kiedy nie ma dostępnego API, które pozwalałoby bezpośrednio połączyć się z systemem. Jeżeli osoba może używać aplikacji, to agent też może.
"Computer use" adaptuje się automatycznie do zmian w aplikacjach i witrynach. Dostosowuje się ono w czasie rzeczywistym, korzystając z wbudowanego wnioskowania, aby rozwiązywać problemy samodzielnie, dzięki czemu praca trwa nieprzerwanie. Jest ono także zbudowane w oparciu o silne środki ochrony i ramy zarządzania Copilot Studio, aby zapewnić zgodność ze standardami firmowymi oraz branżowymi.
Dzięki "computer use" w Copilot Studio twórcy mogą budować agenty, które automatyzują zadania w interfejsach użytkownika w aplikacjach zarówno desktopowych, jak i przeglądarkowych, wliczając w to Edge, Chrome i Firefox. Ponadto "użycie komputera" działa na infrastrukturze hostowanej przez Microsoft, co oznacza, że organizacje nie muszą zarządzać własnymi serwerami. Dane firmowe pozostają wewnątrz granic Microsoft Cloud i nie są używane do trenowania modelu Frontier. Pomaga to organizacji przyspieszyć wdrażanie, zmniejszyć potrzeby utrzymania i obniżyć koszty infrastruktury.
- Charles Lamanna, CVP Business & Industry Copilot w Microsoft
Copilot Studio pokonuje tradycyjne ograniczenia automatyzacji procesów
Dzięki temu, że agenty Copilota będą mogły teraz korzystać z komputera nawet tam, gdzie nie ma bezpośredniego API, klienci będą mogli wydajniej realizować różne scenariusze, takie jak zautomatyzowane wprowadzanie danych, badania rynku czy przetwarzanie faktur. Jak wyjaśnia Microsoft, "computer use" korzysta ze zrobotyzowanej automatyzacji procesów (Robotic Process Automation - RPA), wykraczając jednak poza jej tradycyjne ograniczenia. Automatyzacja stała się mądrzejsza i bardziej intuicyjna:
- "Computer use" odpowiada na zmiany w czasie rzeczywistym: gdy przyciski na ekranie się zmieniają, narzędzie nadal pracuje bez zakłóceń.
- Jest łatwe w użyciu: możesz opisać naturalnym językiem to, co chcesz uzyskać. Nie są potrzebne umiejętności kodowania (podejście low-code), dlatego Copilot Studio jest przystępny nie tylko dla programistów. Możesz testować i ulepszać prompt w czasie rzeczywistym, obserwując "użycie komputera" tworzące łańcuch rozumowania oraz planowaną automatyzację UI.
- Jest zbudowane w oparciu o inteligencję: agenty widzą na ekranie to samo, co Ty, i podejmują inteligentne decyzje w czasie rzeczywistym - nawet w złożonych i stale zmieniających się środowiskach.
- Oferuje pełną widoczność: twórcy mogą przeglądać pełną historię aktywności "computer use", w tym wykonane zrzuty ekranu i podjęte kroki.
Dowiedz się więcej o agentach AI i automatyzacji
Gigant z Redmond zapowiedział także więcej wiadomości na ten temat na konferencji Microsoft Build 2025. Słynne wydarzenie cykliczne odbędzie się w tym roku w dniach 19-22 maja i jak zwykle możesz spodziewać się naszej relacji na CentrumXP. Więcej na temat agentów AI i Copilot Studio dowiesz się z naszych artykułów: