次世代AI「GPT-4o」登場！音声・画像理解が飛躍的に向上

生成AIニュース

2024.05.17

WorkWonders

OpenAIが新モデル「GPT-4o」（oはomni）を発表しました。処理速度の向上に加え、画像や音声認識の性能が大きく進化しています。
GPT-4oは音声、画像、テキストをあらゆる組み合わせで入力でき、出力もマルチモーダルに対応しています。例えば、音声入力での応答時間が格段に速くなり、人間と同じくらいの320msに達しています。
従来は音声をテキストに変換する必要がありましたが、GPT-4oはこれを直接処理し、より細かい情報を捉えられるようになっています。
さらに、複数の言語への対応も改善され、特に日本語についてはより効率的な処理が可能となりました。この革新的なAI技術は、まだ研究の初期段階であり、将来性を大きく秘めています。

出典 : https://pc.watch.impress.co.jp/docs/news/1591159.html

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】