OpenAIが新モデル「GPT-4o」(oはomni)を発表しました。処理速度の向上に加え、画像や音声認識の性能が大きく進化しています。
GPT-4oは音声、画像、テキストをあらゆる組み合わせで入力でき、出力もマルチモーダルに対応しています。例えば、音声入力での応答時間が格段に速くなり、人間と同じくらいの320msに達しています。
従来は音声をテキストに変換する必要がありましたが、GPT-4oはこれを直接処理し、より細かい情報を捉えられるようになっています。
さらに、複数の言語への対応も改善され、特に日本語についてはより効率的な処理が可能となりました。この革新的なAI技術は、まだ研究の初期段階であり、将来性を大きく秘めています。
出典 : https://pc.watch.impress.co.jp/docs/news/1591159.html