昨日、OpenAIは大規模言語モデルGPTの最新バージョンであるGPT-4oを発表しました。
この「o」は「omni-modal(オムニモーダル)」を意味し、その能力は従来のAIを大きく超えています。
GPT-4oの最も注目すべき点は、その応答の速さと感情表現の豊かさです。
さらに、特定の声を識別し、歌うこともできます。
一方、「Hume」というAIには感情的な知能が搭載されており、音声だけでなく感情を理解することができます。
これらのAIの応答時間は320ミリ秒と驚異的に速く、リアルタイムの会話も可能になっています。
ポッドキャスト「AI Meets Productivity」のホスト、Trevor Lohrbeer氏は、これらの進化を紹介し、HumeとGPT-4oの体験談や、AIとインタラクティブにコミュニケーションを行う未来について語ります。
新しいAIの世界に興味を持った方は、ぜひポッドキャストをチェックして、GPT-4oがもたらす変革の可能性に思いを馳せてみてください。
出典 : https://medium.com/@FastFedora/an-analysis-of-voice-mode-in-gpt-4o-cc0ab4c8a2c0