AI技術の進化は止まらず、今回OpenAIが新たに「Realtime API」を公開しました。これは、発話した音声を迅速にAIモデルGPT-4oへ送ることができ、音声認識と返答を瞬時に実現する高性能APIです。既存の方法では、音声をテキストに変換し、返答も再び音声に戻す必要がありましたが、Realtime APIではその全工程が一括で行えるため、対話の遅延を大幅に削減します。
WebSocketを活用することで通信の効率化も実現し、開発者には更なる柔軟性が提供されます。音声はもちろんのこと、テキストや将来的には画像や動画にも対応予定で、対話AIとの新しい形のインタラクションが期待されています。
コミュニケーションの新時代を切り開く、この革新的なツールを是非体験してみてください。
出典 : OpenAI、最小の遅延でLLMとの音声のやり取りを実現する「Realtime API」を公開 https://codezine.jp/article/detail/20308