W listopadzie 2024 r. pojawiły się doniesienia o pracach OpenAI nad agentem AI, który będzie wykonywał zadania w imieniu użytkownika. Nosi on nazwę "Operator" i potrafi robić określone rzeczy, takie jak rezerwowanie biletów lotniczych czy pisanie kodu programistycznego na komputerze użytkownika. Wczoraj firma oficjalnie wypuściła Operatora. Co dokładnie o nim wiadomo?
Wypuszczamy dziś Operatora, agenta, który może wchodzić do sieci, aby wykonywać dla Ciebie zadania. Używając swojej własnej przeglądarki, potrafi on spojrzeć na stronę i dokonywać z nią interakcji, pisząc, klikając i przewijając. Jest on obecnie w wersji research preview, co oznacza, że ma ograniczenia i będzie ewoluował w oparciu o feedback użytkowników. Operator to jeden z naszych pierwszych agentów, które są sztucznymi inteligencjami zdolnymi do niezależnego wykonywania dla Ciebie pracy – dajesz mu zadanie, a on je wykonuje.
Operator może być poproszony o wykonanie szerokiego wachlarza powtarzalnych zadań w przeglądarce, takich jak wypełnianie formularzy, zamawianie zakupów czy nawet tworzenie memów. Umiejętność korzystania z tych samych interfejsów i narzędzi, z którymi ludzie dokonują interakcji na co dzień, zwiększa przydatność AI, pomagając ludziom zaoszczędzić czas na codziennych zadaniach, otwierając nowe możliwości zaangażowania dla firm.
Aby zapewnić bezpieczne i iteratywne wdrażanie, zaczynamy skromnie. Od dziś Operator jest dostępny dla użytkowników Pro w USA na stronie operator.chatgpt.com.
— OpenAI
Firma planuje rozszerzyć dostępność Operatora na ChatGPT Plus, Team i Enterprise, a w przyszłości zintegrować jego możliwości z samym ChatemGPT. Jeśli chodzi o samego agenta, to jest on oparty na nowym modelu o nazwie Computer-Using Agent (CUA), który łączy możliwości spod szyldu computer vision modelu GPT-4o z zaawansowanym wnioskowaniem/rozumowaniem poprzez reinforcement learning (uczenie poprzez wzmacnianie). CUA jest wytrenowany, by korzystać z graficznych interfejsów użytkownika (GUI), takich jak przyciski, menu czy pola tekstowe na ekranie.
Operator "widzi" (poprzez zrzuty ekranu) i "dokonuje interakcji" (używając działań, na które pozwalają mysz i klawiatura) w przeglądarce, co pozwala mu działać tak jak ludzki użytkownik, bez konieczności integracji na poziomie API. Kiedy ten agent AI napotka trudności lub popełni błąd, potrafi wykorzystać swoje zdolności rozumowania, by samodzielnie dokonać korekty. A kiedy gdzieś utknie i będzie potrzebował pomocy, po prostu przekaże kontrolę użytkownikowi.
Dowiedz się więcej z naszych artykułów:
- Agenty AI - czym są i jak zmienią sposób naszej pracy?
- Nadchodzi duża zmiana platformowa AI. Microsoft utworzył nowy dział
- Autonomiczne agenty AI zmierzają do Microsoft Copilot Studio
- Agenty Copilota w Copilot Studio dla użytkowników Microsoft 365 Copilot
- Windows Agent Arena - benchmark do testowania agentów AI dla Windows