Nowe głosy HD z poprawioną wymową w Azure AI Speech

Nowe głosy HD z poprawioną wymową w Azure AI Speech

Autor: Krzysztof Sulikowski

Opublikowano: 9/30/2024, 6:00 PM

Liczba odsłon: 53

W zeszłym roku Microsoft wypuścił superrealistyczne głosy AI, zoptymalizowane do scenariuszy konwersacji, takich jak czatboty, asystenci głosowi, gaming i nie tylko. Deweloperzy mogą używać tych neuronowych głosów text-to-speech (TTS) w swoich aplikacjach, korzystając z Azure Speech SDK lub REST API. W ciągu ostatnich miesięcy Microsoft dodał kolejne – teraz biblioteka liczy ponad 500 neuronowych głosów TTS w ponad 140 językach i dialektach.

Dziś gigant z Redmond ogłosił nową i ulepszoną wersję HD swojej usługi neuronowej zamiany tekstu na mowę dla wybranych głosów. Te nowe głosy HD cechują się poprawioną ogólną ekspresją dzięki wykrywaniu emocji na podstawie kontekstu wprowadzanego tekstu. Ta innowacyjna technologia używa akustycznych i lingwistycznych funkcjonalności do generowania mowy wypełnionej bogatymi, naturalnymi wariacjami. Potrafi ona sprawnie wykrywać wskazówki emocjonalne w tekście i autonomicznie dostosowywać ton i styl głosu. Dzięki tej aktualizacji możesz spodziewać się bardziej ludzkiego wzorca mowy, charakteryzującego się ulepszoną intonacją, rytmem i emocjami – czytamy na blogu Azure AI Services.

Autoregresyjne, transformerowe modele językowe ("Auto-regressive transformer language models") zademonstrowały ostatnio niezwykłą skuteczność w modelowaniu zadań, wliczając w to tekst, obraz i mowę. Microsoft wprowadza nowe głosy HD oparte na strukturze modeli językowej. Są one zaprojektowane, by mówić wybraną przez platformę barwą głosu. Ponadto głosy te cechuje:

  • Generowanie mowy zbliżonej do ludzkiej. Model Microsoftu nie tylko poprawnie interpretuje wsadowy tekst, ale też rozumie jego nastrój, automatycznie dostosowując ton wypowiedzi do przekazywanych emocji. Dynamiczne dostosowywanie ekspresji dzieje się w czasie rzeczywistym, bez potrzeby ręcznych edycji.
  • Konwersacyjność. Nowy model świetnie odtwarza naturalne wzorce mowy, w tym spontaniczne pauzy i akcenty. Nie brzmi to już jak maszynowe czytanie tekstu pisanego. Generowany głos sprawia wrażenie, jakby ktoś rozmawiał z Tobą bezpośrednio.
  • Warianty prozodii. Głosy ludzkie są naturalnie zmienne. Każde zdanie wypowiedziane przez człowieka brzmi inaczej od poprzedniego. Nowy system zwiększa realizm, wprowadzając niewielkie zmiany w każdym outpucie, dzięki czemu mowa brzmi jeszcze bardziej naturalnie.

W poście na blogu można posłuchać przykładów syntezy mowy przez ten udoskonalony model. Link poniżej.

Źródło: https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/new-hd-voices-preview-in-azure-ai-speech-contextual-and/ba-p/4258325

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia