W środę Microsoft ogłosił wprowadzenie dodatkowych funkcji do pakietu Cortana Intelligence Suite. Pierwszą z nich jest Bot Framework, o którym pisaliśmy wcześniej. Teraz kolej na zbiór inteligentnych interfejsów programistycznych o nazwie Microsoft Cognitive Services. Pozwalają one systemom widzieć, słyszeć, mówić, rozumieć oraz interpretować nasze potrzeby za pośrednictwem naturalnych metod komunikacji. W trakcie pierwszego dnia konferencji BUILD 2016 Microsoft zademonstrował, w jaki sposób programiści mogą wykorzystać te usługi w celu zmiany nie tylko rzeczywistości biznesowej, lecz także codziennego życia ludzi.
Jak już wcześniej pisaliśmy, liczba inteligentnych API Microsoftu zwiększyła się z 5 do 22. Wszystkie z nich będą darmowe i dostępne do użytku w dowolnych celach. Jednym z ciekawszych projektów w tym zakresie jest Seeing AI, który odpowiada za... widzenie. Kluczową rolę w projekcie odegrał Saqib Shaikh, deweloper i inżynier z Londynu, który stracił wzrok w wieku 7 lat. "Jedną z rzeczy, o których marzyłem, odkąd poszedłem na uniwersytet, był ten właśnie pomysł na coś, co mogłoby w każdym momencie powiedzieć ci, co dzieje się wokół ciebie" - mówi Shaikh. W realizacji tego pomysłu wzięli udział inżynierowie z Microsoft. Seeing AI wykorzystuje inteligentne API z portfolio firmy; jako aplikacja działa na smartfonach i okularach Pivothead - urządzeniu z segmentu wearable.
Seein AI "to aplikacja, która obecnie znajduje się w fazie testów. Jej celem jest pokazanie, w jaki sposób te nowe możliwości w dziedzinie IT pomogą ludziom mającym problemy ze wzrokiem oraz osobom niewidomym lepiej zrozumieć otaczający ich świat".
Powyższe wideo udostępniono również w wersji z audiodeskrypcją.
Osoby niewidome odbierają świat głównie poprzez bodźce dźwiękowe i to właśnie one stanowią punkt wyjścia w Seeing AI. Działa to na prostej zasadzie, tym niemniej podparte jest wysoko rozwiniętą sztuczną inteligencją. Przykład możecie zobaczyć na filmiku powyżej. Niewidomy użytkownik dotyka palcem okularów, te rozpoznają obraz naprzeciwko, a syntezator mowy opisuje scenę: "Sądzę, że to człowiek, podskakujący w powietrzu i wykonujący trick na deskorolce". Seeing AI rozpoznaje twarze i na ich podstawie ocenia płeć, wiek i emocje rozmówców. Jak żartuje Shaikh, pomaga mu to sprawdzić, czy jego rozmówcy słuchają, czy też zasypiają. Kolejną ciekawą funkcją jest rozpoznawanie tekstu (OCR) i zamienianie go na mowę. Seeing AI może na przykład przeczytać menu w restauracji, wybierając same tylko nagłówki. Jak mówi Shaikh, jeszcze kilka lat temu byłoby to uznane za science fiction lecz teraz jest całkowicie realne.
Technologia została zaprezentowana na zakończenie rozpoczynającego keynote'u pierwszego dnia konferencji BUILD 2016. Gdy Saqib pojawił się na scenie, zebrał gromkie brawa ze strony widowni. Niewidomy deweloper zapowiada, że projekt Seeing AI "to dopiero początek".
Tymczasem zapraszamy do podsumowania z pierwszego dnia konferencji i śledzenia na żywo relacji z dnia drugiego - zaczynamy za 4 godziny.