Rozmowa ze sztuczną inteligencją w Bing Chat nie musi już ograniczać się do samego tekstu ze strony użytkownika. Czatbot akceptuje teraz obrazy jako dane wejściowe. Jest to funkcjonalność zapowiadana już podczas aktualizacji usługi do GPT-4, jednak dopiero teraz została oddana do użytku. Efekty są imponujące...
Microsoft Bing Chat, korzystający z GPT-4 w trybie kreatywnym (Creative Mode), przyjmuje teraz obrazy w wiadomościach użytkownika. Jeden z przykładów zamieścił prof. Ethan Mollick, który zajmuje się m.in. sztuczną inteligencją. Aby uniknąć potencjalnej możliwości, że AI zgaduje odpowiedzi z kontekstu nazwy pliku, badacz przesłał tylko zrzut ekranu mema zamiast oryginalnego obrazu. I chociaż tłumaczenie żartów w normalnej rozmowie sprawia, że przestają śmieszyć, to jednak interpretacja humoru przez AI jest niezwykle ciekawa.
Analizując mem, Czat Bing trafnie zauważył, że kobieta reprezentuje osobę, która stara się zignorować lub uniknąć problemów, a niedźwiedź reprezentuje problemy. Efekt komiczny wynika z kontrastu. Badacz zapytał Bing, czy może przeczytać tekst na obrazie, co ten oczywiście zrobił. Dopytał też, w jaki sposób wzmacnia to żart. I tutaj również Bing wykazał się trafną analizą.
Czat Bing oparty na GPT-4 posługuje się tu komputerowym rozpoznawaniem zawartości obrazów (Computer Vision), czyli technologią AI, którą Microsoft rozwija już od wielu lat w różnych aplikacjach i usługach, np. Rinna, Seeing AI czy Azure Cognitive Services.
Źródło: https://twitter.com/emollick/status/1671528847035056128