OpenAIは2025年3月20日、革新的な音声AIモデルのシリーズを発表しました。
gpt-4o-transcribeとその派生モデルは、APIとデモサイト「OpenAI.fm」を通じて、特にカスタマーコールセンターや会議の文字起こし、AIアシスタントなどに活用できます。
これらのモデルは、音声認識と音声合成を目的に、GPT-4oに追加トレーニングを施し、英語での単語エラー率を2.46%に減少させています。
開発者は「Agents SDK」を使用して、約9行のコードで音声機能をテキストベースアプリに導入できるようになりました。
単語エラー率やステアラビリティなど、様々な技術が組み合わさって、AIの会話能力は飛躍的に向上しています。
難しいAI技術も高校生でも理解できるよう、分かりやすく説明しており、音声AIの未来が近づいていることを感じさせます。
競合他社も独自の機能を提供し、市場は活性化を見せています。
これらの技術進化は、私たちのコミュニケーション方法に大きな変革をもたらすでしょう。
出典 : OpenAI:新音声モデル「gpt-4o-transcribe」登場 – わずか数秒でテキストアプリに音声機能を追加可能に – イノベトピア https://innovatopia.jp/ai/ai-news/49760/