OpenAI wprowadziło na rynek nową generację modeli audio dostępnych przez API, co stanowi znaczący krok w rozwoju technologii głosowych. Ta aktualizacja obejmuje zarówno modele zamiany mowy na tekst, jak i tekstu na mowę, otwierając nowe możliwości dla programistów i firm.
Ulepszone Modele Zamiany Mowy na Tekst
Nowe modele zamiany mowy na tekst, oznaczone jako gpt-4o-transcribe
i gpt-4o-mini-transcribe
, charakteryzują się znaczącym postępem w redukcji wskaźnika błędów słownych (Word Error Rate – WER) oraz poprawą dokładności i rozpoznawania języka. W porównaniu do oryginalnych modeli Whisper, nowe modele wykazują lepszą wydajność w trudnych warunkach, takich jak akcenty, hałaśliwe otoczenie i zróżnicowane tempo mowy.
Postęp ten jest wynikiem zastosowania technik uczenia ze wzmocnieniem oraz intensywnego wstępnego trenowania na różnorodnych, wysokiej jakości zbiorach danych audio. Modele te bazują na architekturach GPT-4o i GPT-4o-mini i zostały zoptymalizowane pod kątem zadań związanych z przetwarzaniem dźwięku.
Innowacje w Modelach Zamiany Tekstu na Mowę
Po raz pierwszy programiści mogą instruować model zamiany tekstu na mowę, aby mówił w określony sposób, na przykład „mów jak empatyczny agent obsługi klienta”. Ta funkcja otwiera nowe możliwości personalizacji agentów głosowych, umożliwiając tworzenie bardziej empatycznych i dynamicznych głosów w obsłudze klienta, a także ekspresyjnych narracji w kreatywnych opowieściach.
Szczegóły Techniczne i Metodologie
OpenAI zastosowało zaawansowane metodologie destylacji, aby przenieść wiedzę z większych modeli audio na mniejsze, bardziej efektywne modele. Wykorzystano również zaawansowane metodologie self-play, aby zbiory danych destylacji efektywnie uchwyciły realistyczną dynamikę konwersacyjną, co pozwala mniejszym modelom na dostarczanie doskonałej jakości konwersacyjnej i responsywności.
Dostępność i Przyszłe Kierunki Rozwoju
Nowe modele audio są już dostępne dla wszystkich programistów. OpenAI planuje dalsze inwestycje w rozwój i ulepszanie swoich modeli audio, w tym umożliwienie programistom wprowadzania własnych, niestandardowych głosów. Firma zamierza również badać inne modalności, takie jak wideo, aby umożliwić programistom tworzenie multimodalnych doświadczeń agentowych.