音声をテキストへ瞬時に変換する「gpt-4o-transcribe」や、進化した音声生成モデル「gpt-4o-mini-tts」がOpenAIから登場しました。これらのモデルは高度な認識精度を持ち、複雑な音声認識にも対応しています。
さらに「gpt-4o-mini-tts」では指示一つでさまざまな雰囲気の音声を生成することが可能です。例えば「ドラマチックな声」や「中世の騎士風な声」など、調整次第で多様なオーディオ体験が楽しめます。
特に注目されているのは、OpenAIが提供する無料デモサイト「OpenAI.fm」です。ここでは実際に「gpt-4o-mini-tts」の能力を試すことができ、声や雰囲気も手軽に変更できます。
PythonやJavaScriptなどのコードでAPIを利用可能な点も魅力で、自分のプロジェクトに音声AIを組み込むことも簡単です。これらのモデルは使用量に応じた課金制ですが、手頃な価格で利用できるため、多くの人がアクセスしやすいのも大きな利点です。
出典 : OpenAIが日本語にも対応した音声文字起こしモデルやテキスト読み上げモデルをリリース、無料で読み上げモデルを試せるデモも登場したので使ってみた https://gigazine.net/news/20250321-openai-next-generation-audio-model/