Czatboty AI przemawiające naturalnymi głosami to coraz powszechniejsze zjawisko. Przekształcenie bezosobowego, automatycznego czatbota w osobistego asystenta może znacznie zwiększyć zaangażowanie użytkownika. Microsoft ogłosił najnowsze aktualizacje Azure AI Speech, dzięki którym wirtualne głosy zapewnią bardziej realistyczne i żywe doświadczenia.
Aktualizacja ta obejmuje szerszy zakres wielojęzykowych głosów dla naturalnych i autentycznych interakcji, więcej wbudowanych opcji awatarów z łatwą integracją z GPT-4o oraz nowe API strumienia tekstu, które mocno zmniejsza latencję dla integracji z ChatGPT, zapewniając szybsze odpowiedzi.
Microsoft zaprezentował najnowszą kolekcję głosów wyposażonych w zaawansowane funkcje wielojęzykowe i działających w Microsoft Azure. Głosy te zostały utworzone w oparciu o wiele języków źródłowych, wprowadzając bogatą różnorodność person, które ulepszą doświadczenie użytkownika. Nowe głosy to:
Nazwa głosu |
Podstawowy język |
Płeć |
en-GB-AdaMultilingualNeural |
en-GB (Angielski – Wielka Brytania) |
Kobieta |
en-GB-OllieMultilingualNeural |
en-GB (Angielski – Wielka Brytania) |
Mężczyzna |
pt-BR-ThalitaMultilingualNeural |
pt-BR (Portugalski – Portugalia) |
Kobieta |
es-ES-IsidoraMultilingualNeural |
es-ES (Hiszpański – Hiszpania) |
Kobieta |
es-ES-ArabellaMultilingualNeural |
es-ES (Hiszpański – Hiszpania) |
Kobieta |
it-IT-IsabellaMultilingualNeural |
it-IT (Włoski – Włochy) |
Kobieta |
it-IT-MarcelloMultilingualNeural |
it-IT (Włoski – Włochy) |
Mężczyzna |
it-IT-AlessioMultilingualNeural |
it-IT (Włoski – Włochy) |
Mężczyzna |
Microsoft zaprezentował też 2 nowe, zoptymalizowane głosy en-US, zaprojektowane specjalnie do scenariuszy call center:
Nazwa głosu |
Podstawowy język |
Płeć |
en-US-LunaNeural |
En-US (Angielski – USA) |
Kobieta |
en-US-KaiNeural |
En-US (Angielski – USA) |
Mężczyzna |
Microsoft wprowadza też szereg nowych awatarów text-to-speech, które pozwolą użytkownikom tworzyć realistyczne wideo z przemawiającymi awatarami, po prostu dostarczając tekst. Interaktywne boty z wizualnymi elementami w czasie rzeczywistym jeszcze bardziej pobudzają zaangażowanie użytkownika.
Ostatnią z nowości jest Text Stream API, zaprojektowany, aby wykorzystywać moc przetwarzania tekstu w czasie rzeczywistym do generowania mowy z nieprzejednaną szybkością. Ten nowy interfejs API jest idealny do dynamicznej wokalizacji tekstu, np. czytania treści generowanej przez modele AI, takie jak GPT, w czasie rzeczywistym.