Firma Microsoft ogłasza cztery nowe głosy zamiany tekstu na mowę AI do użytku z platformą Azure OpenAI

2023/09/21

Firma Microsoft ogłosiła wprowadzenie czterech nowych głosów neuronowych sterowanych sztuczną inteligencją do aplikacji zamiany tekstu na mowę (TTS), których od dziś można używać w platformie Azure OpenAI GPT w celu tworzenia chatbotów, asystentów głosowych i agentów konwersacyjnych wykorzystujących mowę.

Cztery głosy, nazwane en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (wszystkie w amerykańskim angielskim) i zh-CH-YunjieNeural (chiński), są „zoptymalizowane pod kątem scenariuszy konwersacyjnych” i są teraz dostępne do publicznej wersji zapoznawczej w trzech regionach: wschodnich Stanach Zjednoczonych, Azji Południowo-Wschodniej i Europie Zachodniej.

Firma Microsoft zaprezentowała kilka próbek nowych głosów w porównaniu z innymi obecnie dostępnymi głosami neuronowymi, aby zaprezentować ulepszenia wprowadzone w celu zwiększenia naturalności i płynności mowy.

Same głosy można zintegrować z istniejącymi aplikacjami korzystającymi z Azure OpenAI , korzystając z Azure Speech SDK lub REST API, a także wykorzystując platformę Azure Bot Framework do tworzenia inteligentnych botów zdolnych do korzystania z nowych neuronowych głosów TTS.

Microsoft dalej mówi, co następuje:

„Zaczęliśmy od stworzenia osobowości każdego głosu tak, jakby był to prawdziwa osoba, przyjazna i optymistycznie nastawiona do życia, zawsze chętna do pomagania innym i dzielenia się intrygującą lub praktyczną wiedzą. Styl mówienia głosu przypomina rozmowę ze znajomym przy herbacie, zachowując naturalny i nieprzesadny ton.”

Co więcej, stale udoskonalamy nasze techniki modelowania zamiany tekstu na mowę (TTS), aby poprawić jakość naszych głosów AI. Nasze najnowsze projekty, takie jak DelightfulTTS 2 i MuLanTTS, znacznie zmniejszyły różnicę w jakości między głosami AI a profesjonalnymi nagraniami ludzi, tworząc bardziej naturalne i realistyczne głosy niż kiedykolwiek wcześniej. Te postępy technologiczne stanowią podstawę, na której zbudowane są nowe głosy sztucznej inteligencji.

Cztery nowe głosy będą uzupełniać istniejącą ofertę ponad 400 głosów neuronowych, które obejmują ponad 140 języków i lokalizacji.

Dodaj komentarz Anuluj pisanie odpowiedzi