Googleが発表した「Gemini 2.0」は、テキストや画像を理解するマルチモーダル言語モデルです。一方、AIエージェント「Jules」はコーディングタスクを自動化します。
OpenAIは短い動画を生成するAI「Sora」を公開し、スタンフォード大学の学生チーム「Pika」は、調和のとれた映像を作り出す「Pika 2.0」を発表しました。
これらの技術は、Microsoftの小型言語モデル「Phi-4」や、現実をリアルタイムで解析するAI「IXC2.5-OL」などと合わせて「生成AIウィークリー」で取り上げられました。
加えて、複数人の視線を同時に推定する新技術「Gaze-LLE」も登場。これにより、人がどこを見ているかを精度良く把握できるようになります。
こうした技術は私たちの生活を大きく変え、AI研究の新たな地平を開いています。
出典 : MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー) https://www.techno-edge.net/article/2024/12/21/3948.html