Rozpoznawanie mowy

Jednym z bardziej nowatorskich narzędzi jakie wprowadziła firma Microsoft w nowej wersji aplikacji Windows, jest program pozwalający na sterowanie komputerem za pomocą głosu. Pozwala on na pełną obsługę systemu, Internetu, programów pocztowych, włączając w to nawet dyktowanie tekstu oraz wiele innych funkcji w aż w ośmiu językach. Jedni krytykują wprowadzony system, inni są mile zaskoczeni. Przekonajmy się zatem co oferuje nowe narzędzie i na ile się ono sprawdza. Jedyne co nam potrzebne to prosty mikrofon i już możemy zacząć wydawać komputerowi polecenia.

Podstawy

Narzędzie rozpoznawania mowy znajduje się w ułatwieniach dostępu Windows: Start/Programs/Accessories/Ease of Access/Windows Speech Recognition. Przed uruchomieniem programu, jeśli mikrofon będzie sprawny, program uruchomi samouczka (Tutorial). Jest on pomocny, choć niekonieczny, bowiem sterowanie głosem jest bardzo intuicyjne. Jakkolwiek nie jest on długi i może okazać się użyteczny.

Po przejściu, lub wyłączeniu samouczka w górnej części ekranu ukaże się program.

Aby uruchomić nasłuchiwanie musimy powiedzieć zwrot "Start Listening". Od tej chwili każde słowo zostanie potraktowane jako komenda. Oczywiście można wyłączyć ten tryb mówiąc "Stop Listening". Na wyświetlaczu, program pokazuje to co aktualnie robi. Pokazuje również czy nasłuchuje (Listening), lub śpi (Sleeping). Jeżeli komputer nie zrozumie komendy i nie będzie mógł podjąć żadnej akcji wtedy wyświetli się komunikat "What was that?", a kolor mikrofonu zmieni się z niebieskiego na pomarańczowy. W takiej sytuacji musimy powtórzyć komendę, albo spróbować innej. Jeśli widok narzędzia na ekranie wyda się denerwujący można je ukryć mówiąc "Hide Speech Recognition". Jak łatwo się domyślić pokazujemy je poleceniem "Show Speech Recognition". Aby sprawdzić listę dostępnych komend mówimy "What can I say?". Ukaże się nam wtedy takie okno:

Przejdźmy teraz do dyktowania (jak się okaże najtrudniejszej czynności związanej z wykorzystaniem narzędzia rozpoznawania mowy). Podczas dyktowania musimy mówić bardzo wyraźnie i najlepiej pełnymi zdaniami. Wtedy komputer nas szybciej zrozumie. Za pomocą głosu możemy wykonać wszystkie czynności związane z edytowaniem tekstu. Możemy wstawić każdy znak. Na przykład aby wstawić wykrzyknik mówimy "Exclamation mark", dla znaku zapytania "Question mark", dla kropki "Period", a dla przecinka "Comma". Jak widać wystarczy znać odpowiedniki tych znaków w języku angielskim. Tak samo jeśli chodzi o tzw. białe znaki. Na przykład aby zacząć nową linię powiemy "New Line", a nowy paragraf "New Pharagraph”. Program rozpoznawania mowy posiada bogate opcje jeśli chodzi o korektę tekstu. Jeśli chcieliśmy aby komputer napisał zdanie "I can now say anything", a faktycznie napisał "I cannot..", musimy powiedzieć "Correct cannot". Ukarze się wtedy okno takie jak na obrazku.

Mówimy numer, przy którym znajduje się odpowiednie słowo, a następnie "OK", aby potwierdzić wybór. Jeżeli w oknie korekcyjnym nie ma słowa, o które nam chodzi, wystarczy wypowiedzieć szukane słowo i ukarze się nowa lista podobnych wyrazów. Jeśli nie znaleźliśmy właściwego słowa możemy je przeliterować komputerowi mówiąc "Spell it". Ukarze się odpowiedni moduł, w którym wypowiadamy kolejno litery. Aby cofnąć ostatnią operację mówimy "Undo", "Undo that" lub "Delete that". Jeśli chodzi nam o wybrane słowo możemy się posłużyć komendą "Delete <slowo>", a jeżeli chcemy skasować wszystko aż do konkretnego słowa mówimy "Delete to <slowo>". Możemy nawet usunąć tekst od jakiegoś wyrazu do innego. Musimy najpierw zaznaczyć tekst "Select <slowo1> through <slowo2>", a następnie wyczyścić dany fragment ("Delete that"). Jeśli przez przypadek zaznaczyliśmy nie ten fragment tekstu, wystarczy powiedzieć "Clear selection" i zaznaczyć ponownie. Aby przejść w konkretne miejsce tekstu (bez zaznaczania) mówimy "Got to <slowo>", a na początek lub koniec dokumentu "Go to start/end of document". W ten sam sposób możemy przejść na koniec akapitu, linii, lub zdania. Podczas dyktowania możemy napisać pojedyncze znaki posługując się komendą "Press <znak>" np: "Press a", lub "Press shift <znak>".

W tabeli przedstawiliśmy kilka pomocnych komend podczas dyktowania tekstu:

Komenda	Jak to powiedzieć?
Kropka "."	"Period"
Wykrzyknik "!"	"Exclamation mark"
Znak zapytania "?"	"Question mark"
Przecinek ","	"Comma"
Enter	"Enter"
Tabulator	"Tab"
Spacja	"Space"
Naciśnięcie konkretnego znaku z funkcją CapsLock	"Press capitol <znak>"
Naciśnięcie konkretnego znaku z funkcją Shift	"Press shift <znak>"
Zaznacza 1-20 słów przed kursorem	"Select previous 1-20 words"
Zaznacza 1-20 słów za kursorem	"Select next 1-20 words"
Wszystkie litery w słowie zmienia na małe	"No caps <słowo>"
Wszystkie litery w słowie zmienia na duże	"Caps <słowo>"
Zmienia wszystkie litery w słowach na duże	"Change next <liczba słów> words to uppercase "
Zmienia wszystkie litery w słowach na małe	"Change next <liczba słów> words to lowercase"

Ponieważ znaków interpunkcyjnych jest bardzo dużo, aby zobaczyć jakie słowo odpowiada określonemu znakowi mówimy "What can I say?". W module, który się pokazał wybieramy Punctuation marks and special characters. Zobaczymy wtedy tabelę przedstawiającą zbiór wszystkich fraz i odpowiadających im komend. Aby wstawić słowo odpowiadające jakiemuś znakowi interpunkcyjnemu (np: "Comma") zamiast tego znaku musimy powiedzieć "Literal <znak>" - w tym przypadku "Literal Comma". Gdy chcemy wpisać określoną liczbę, powiemy "Numeral <liczba>".

Poruszanie się po systemie w praktyce jest dużo prostsze od dyktowania. Możemy kliknąć wszystko co widzimy, czy to przycisk Start, czy ikona na pulpicie, lub też wybrać opcje programu. W tabeli znajdują się podstawowe funkcje ułatwiające obsługę systemu:

Komenda	Jak to powiedzieć?
Podwójne kliknięcie	"Double Click <coś>"
Kliknięcie prawym przyciskiem myszy	"Right Click <coś>"
Przewijanie tekstu	"Scroll Up/Down"
Przewijanie tekstu o daną ilość linji	"Scroll Up/Down <liczba>"
Wyświetlenie numerów dla wszystkich przycisków okna	"Show numbers"
Minimalizacja okna	"Minimize That"
Maksymalizacja okna	"Maxymize That"
Zamknięcie okna	"Close That"
Pokaż pulpit	"Show Desctop"
Przełączanie się pomiędzy aplikacjami	"Switch to <aplikacja>"
Uruchamianie aplikacji	"Start <aplikacja>" np: "Start Calculator"
Kopiuj, wklej, wytnij	"Copy", "Paste", "Cut"

Komenda "Show numbers" jest bardzo pomocna jeśli okno posiada dużo przycisków i nie wiemy jak kliknąć odpowiedni guzik. Przyporządkuje ona numery dla przycisków i je wyświetla. Wybieramy wtedy odpowiedni numer i potwierdzamy wybór ("OK").

Jeśli mamy kilka uruchomionych aplikacji, możemy między nimi łatwo przeskakiwać używając komendy "Switch <nazwa aplikacji>". Jeżeli jednak nie znamy nazwy aplikacji, na którą chcemy się przełączyć, mówiąc "Switch application" wyświetli się lista wszystkich uruchomionych programów. Gdy wypowiemy określony numer, komputer przełączy je.

Dyktowanie w praktyce - pisanie wiadomości e-mail

Podczas samouczka nauka dyktowania szła wspaniale. Komputer pisał to co powinien. W praktyce okazuje się, że napisanie poprawnie krótkiego tekstu graniczy z cudem. Musimy mieć bardzo, ale to bardzo dużo cierpliwości jeżeli chcemy cokolwiek osiągnąć. Aby upewnić się, że nie jest to spowodowane niepoprawną, czy niewyrazistą wymową, poprosiliśmy studenta czwartego roku filologii angielskiej o pomoc. Jednak on również miał spore problemy z napisaniem (podyktowaniem) choćby jednego zdania. Średnio jedno na pięć słów jakie wypowiedział były tym, o które rzeczywiście mu chodziło. Nie tylko my mieliśmy z tym problem. Nawet na oficjalnej prezentacji nie udało się poprawnie podyktować ani jednego poprawnego zdania. Aby samemu spróbować sił wystarczy uruchomić dowolny edytor tekstu mówiąc np.: "Start Notepad" lub "Start WordPad".

Spróbujmy napisać wiadomość e-mail. Jeśli program jest w trybie uśpienia, obudźmy go komendą "Start Listening". Teraz musimy uruchomić klienta pocztowego, na przykład Windows Mail. Służy do tego polecenie "Start Windows Mail". Możemy również go wybrać z menu Start mówiąc kolejno komendy "Start", "All Programs", "Windows Mail". Następnie uruchamiamy okno nowej wiadomości - "Create Mail". Między polami "To", "Subject" i głównym polem tekstowym, przeskakujemy mówiąc "Tab" - co wywoła identyczny efekt jak przy kilknięciu przycisku Tabulator na klawiaturze. Możemy również powiedzieć "Show numbers" i wybrać odpowiednie pole, lub po prostu wypowiedzieć nazwy określonych pól. Gdy uda nam się podyktować poprawnie wiadomość (co jest bardzo wątpliwe), wysyłamy ją mówiąc "Send". Następnie zamykamy program - "Close That".

Zaawansowana obsługa Windows za pomocą głosu

Internet

Jak już wspominaliśmy, możemy sprawnie wykonać każdą czynność związaną z obsługą Windows (za wyjątkiem dyktowania) posługując się systemem rozpoznawania mowy. Przyjrzymy się bliżej obsłudze przeglądarki internetowej. Problemem może tutaj być podyktowanie adresu strony internetowej. Na szczęście jest to krótka nazwa. Możemy ją nawet przeliterować ("Spell It"). Kiedy wykonamy to niełatwe zadanie, komendą "Press Enter" lub po prostu "Enter" przechodzimhy do wybranej strony. Możliwe, że ukarzą się numerki odpowiadające przyciskowi Go dla strony i dla paska Search.

Wybraliśmy stronę Microsoftu z jednego względu. Jakkolwiek by się nie wypowiedziało tej nazwy, choćby nawet z pełnymi ustami, lub zaciśniętymi zębami, zawsze zostanie prawidłowo rozpoznane. Mamy dostęp do wszystkich funkcji przeglądarki (w tym przypadku Internet Explorer 7). Mówiąc "Press F11" wywołamy tryb pełnoekranowy. "New Tab" - utworzymy nową zakładkę, "Close Tab" zamknie ją. "Back", "Stop", "Refresh" również działają poprawnie. Między zakładkami możemy się przełączać komendą "Press control <numer zakładki>". Często się zdarzy, że nie będziemy mogli wybrać określonego przycisku, czy linku na stronie. Musimy wtedy użyć polecenia "Mouse Grid". Na ekranie pokaże się siatka. Dzięki wyborowi odpowiedniego pola, które podzieli się na mniejsze, możemy doprowadzić kursor myszy w dowolne miejsce ekranu.

Możemy także z łatwością pokazać menu "Tools" i zmienić opcje internetowe przeglądarki.

Ku mojemu zdziwieniu bardzo szybko można dotrzeć na stronę wyszukiwarki Google. System bez problemu rozpoznaje adres tej strony. Po jej załadowaniu, aby sprawdzić działanie wyszukiwarki podyktowaliśmy kolejne słowa, które są bardzo szybko rozpoznawane - "Windows speech recognition". Po wyszukaniu, żeby wybrać jeden z dostępnych linków, wystarczy że przeczytamy wybrany nagłówek. Możemy również posłużyć się poleceniem "Mouse Grid", lub "Show numbers".

Zaawansowana obsługa systemu

Jak już wspominaliśmy Speech Recognition w Windows Vista sprawdza się wyśmienicie we wszystkich elementach obsługi systemu. Wykorzystajmy je więc do zmiany tapety pulpitu. Jeżeli mamy otwartą jakąś aplikację musimy powiedzieć "Show Desktop" aby ją zwinąć. Następnie wykonujemy czynności identyczne, jak byśmy robili to za pomocą myszy: "Right Click Desktop", "Personalize" - aby wyświetlić okno zmiany wyglądu, "Desktop Background", aby pokazać dostępne tapety. Poleceniem "Scrol up/down" możemy przejrzeć domyślne obrazy. Jeśli chcemy wybrać inna tapetę, mówiąc "Browse" będziemy mieli możliwość przeglądu plików na dysku. Aby przechodzić kolejne foldery najłatwiej jest użyć komendy "Double Click <folder>". Często jednak katalogi są nazwane po polsku, z polskimi znakami. Narzędzie nie zrozumie polecenia nawet jeśli będziemy mówić z angielskim akcentem. Jednak wystarczy wtedy powiedzieć "Show Numbers" i wybrać odpowiedni numerek. Po znalezieniu tapety akceptujemy wybór poleceniem "OK". Po zmianie zamykamy moduł Personalization komendą "Close That", lub "Close Window".

Bardzo łatwo można edytować i przeglądać rejestr systemu, ale uwaga, poprzez modyfikację rejestru możemy spowodować, że system już się nie uruchomi. Powinni się tym zajmować jedynie doświadczeni użytkownicy. Aby uruchomić edytor rejestru powiemy kolejno: "Start", "Run". Teraz najlepiej przeliterować ("Spell It") ze względy na trudności z dyktowaniem, nazwę regedit. Następnie gdy powiemy "Enter", ukaże się edytor rejestru. Kolejne klucze rozwijamy poleceniem "Double Click <nazwa klucza>". Jeżeli chcemy edytować jakąś wartość musimy powiedzieć "Double Click <wartość>", zmienić ją i zaakceptować ("OK"). Aby wartość usunąć, wybieramy odpowiednią opcję z menu, które ukarze się po wypowiedzeniu komendy "Right Click <wartość>". Posługując się menu "Edit" możemy utworzyć dowolną wartość.

Obsługa błędów i poprawienie jakości działania programu

Czasem zdarza się, że narzędzie rozpoznawania mowy zawiesza się, a raczej znacznie spowalnia swoje działanie. Musimy zwracać uwagę na komunikaty jakie pokazuje program. Jeżeli źle wypowiedzieliśmy polecenie, mikrofon zmieni kolor na pomarańczowy i wyświetli się poniższy komunikat.

Nie należy wydawać kolejnych komend jeżeli widzimy ze komputer wciąż przetwarza poprzednie polecenia. Świadczy o tym niebieskie kółko w prawej części wyświetlacza.

Program rozpoznawania mowy dużej ilości pamięci RAM i powinniśmy o tym pamiętać.

Czasem się zdarza, że nie możemy wykorzystać pewnych funkcji, komend (jak na przykład "Spell It"). W takich sytuacjach wyświetli się komunikat This command is not avaliable now.

Windows Speech Recognition posiada kilka opcji umożliwiających polepszenie działania programu. Jedna z nich polega na czytaniu konkretnych zdań przez co komputer uczy się lepiej rozpoznawać głos. Aby ją uruchomić musimy powiedzieć "Show Speech Options", z menu wybrać "Configuration", a następnie "Improve voice recognition". Inna opcja pozwala na dodawanie nowych słów, które mają być później wykorzystane podczas dyktowania. Po powrocie do pokazanego wcześniej menu wybieramy "Open the Speech Dictionary". Ukaże się okno z trzema możliwościami. Pierwsza dodaje nowy wyraz do słownika, druga zabezpiecza aby konkretne słowo nigdy nie mogło być podyktowane. Trzecia natomiast edytuje dodane wcześniej wyrazy.

Po wykonaniu powyższych czynności nie zauważyliśmy różnicy. Możliwe, że przeczytanych zostało za mało zdań w trakcie ulepszania. Dodaliśmy także do słownika wyraz "drwal", który jest twardo brzmiący. Spodziewaliśmy się, że będzie łatwiej systemowi go rozpoznać, co się potwierdziło w większości prób jego późniejszego wypowiadania.

Zdaniem Microsoftu, użyty mikrofon może mieć duży wpływ na jakość rozpoznania mowy przez komputer. Powinien to być sprzęt wysokiej jakości. Jednak większość będzie używać średniej, lub niższej klasy sprzętu. Do obsługi systemu nadaje się on znakomicie. Niestety opcja dyktowania tekstu nie jest jeszcze na tyle dopracowana, żeby można było z niej wygodnie korzystać.

Rozpoznawanie mowy

Autor: Dariusz Michalski

Opublikowano: 12/8/2007, 12:00 AM

Liczba odsłon: 23736