音声技術の未来を切り開く!OpenAIが新オーディオモデルを提供

2025.03.22

WorkWonders

音声技術の革新者OpenAIが、その新たな一歩として開発者に向けて先進的なオーディオモデル群をリリースしました。
これらは、従来の「Whisper」モデルを遥かに凌ぐ音声認識の精度と、個性に富んだ音声合成の能力を備えており、開発者はより正確で、多様な音声サービスの提供が可能になります。
特に「gpt-4o-transcribe」はその卓越した認識性能により、厳しい環境下での会話の正確な捉え方に優れ、「gpt-4o-mini-tts」は指示に基づいたダイナミックな音声合成を実現します。
さらに、音声合成デモアプリ「openai.fm」が公開され、異なる声質や雰囲気の音声を体験でき、より身近なテクノロジーとしての可能性を広げています。
これらの革新は小型化されたモデルでも高いパフォーマンスを保証し、利用者に新しい音声体験を提供することが期待されています。

出典 : OpenAI、自然で感情豊かに文章読をみ上る音声合成モデル 書き起こしも強化 https://www.watch.impress.co.jp/docs/news/1671850.html

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓