OpenAI wprowadza nowe modele audio dla głosowych agentów AI

OpenAI wprowadza nowe modele audio dla głosowych agentów AI

Autor: Krzysztof Sulikowski

Opublikowano: 3/21/2025, 6:30 PM

Liczba odsłon: 260

Przez ostatnie miesiące OpenAI rozwijało głównie agenty AI oparte na tekście - systemy niezależnie wykonujące zadania w imieniu użytkowników - oraz narzędzia do korzystania z nich, wliczając w to Operator, Deep Research, Computer-Using Agents i Responses API. Uzupełnieniem tego są modele audio do zamiany mowy na tekst i odwrotnie. Pozwolą one budować potężne, konfigurowalne i inteligentne agenty głosowe o prawdziwej wartości dla klientów.

Wypuszczamy nowe modele audio speech-to-text i text-to-speech w API. (...) Nasze najnowsze modele zamiany mowy na tekst ustanawiają rekordowy wynik w benchmarkach, wyprzedzając istniejące rozwiązania pod względem dokładności i niezawodności, zwłaszcza w stanowiących wyzwanie scenariuszach obejmujących akcenty, hałaśliwe otoczenie i różne szybkości mówienia. Te ulepszenia zwiększają niezawodność transkrypcji, sprawiając, że te modele są świetnie dopasowane do przypadków użycia w call center, tworzenia notatek ze spotkań i wielu innych.

Po raz pierwszy deweloperzy mogą też poinstruować model text-to-speech, aby mówił w konkretny sposób, np. "mów jak sympatyczny agent obsługi klienta" - odblokowując nowy poziom personalizacji agentów głosowych. Umożliwia to [tworzenie] szerokiego zakresu aplikacji - od bardziej empatycznych i dynamicznych głosów obsługi klienta, po ekspresyjną narrację doświadczeń z kreatywnym storytellingiem.

Uruchomiliśmy nasz pierwszy model audio w 2022 roku i od tego czasu stale ulepszamy inteligencję, dokładność i niezawodność tych modeli. Dzięki tym nowym modelom audio deweloperzy mogą budować dokładniejsze i bogatsze systemy zamiany mowy na tekst oraz ekspresyjne, pełne charakteru głosy text-to-speech - wszystko wewnątrz API.

— OpenAI

Nowe modele zamiany mowy na tekst to gpt-4o-transcribe oraz gpt-4o-mini-transcribe. Mają one niższy współczynnik błędów oraz lepsze i dokładniejsze rozpoznawanie języka w porównaniu z oryginalnymi modelami Whisper. Te nowe modele są dostępne w speech-to-text API⁠. Jeśli zaś chodzi o modele zamiany tekstu na mowę, OpenAI wprowadziło gpt-4o-mini-tts. Po raz pierwszy programiści mogą poinstruować model głosowy, aby nie tylko mówił to, co chcą, ale także jak chcą. Model ten jest dostępny w text-to-speech API.

OpenAI wyjawia, że jego nowe modele audio zbudowane są w oparciu o architektury GPT-4o oraz GPT-4o-mini i są rozlegle wytrenowane oraz wyspecjalizowane na zestawach danych skupionych na dźwięku. To ukierunkowane podejście zapewnia głębszy wgląd w niuanse mowy oraz umożliwia niezwykłą wydajność w zadaniach powiązanych z dźwiękiem - pisze wydawca.

Do budowy tych modeli twórcy wykorzystali zaawansowane metody destylacji, a także uczenie poprzez wzmacnianie (reinforcement learning). Ta metodologia dramatycznie poprawiła precyzję i zredukowała halucynacje, sprawiając, że nasze rozwiązania speech-to-text są wyjątkowo konkurencyjne w złożonych scenariuszach rozpoznawania mowy - dodają twórcy. Nowe modele są już dostępne dla wszystkich deweloperów do użycia w ich aplikacjach AI.

Źródło: https://openai.com/index/introducing-our-next-generation-audio-models/

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia