OpenAI社によって発表されたGPT-4oは、テキストだけでなく音声、画像、動画までのあらゆるデータ形式を入力し、またそれらを出力することも可能な最新のAIモデルです。一方で、同社の別シリーズであるo1は、異なるモダリティの組み合わせは入力できず、幅広い一般知識を活用して高度な推論能力を発揮する特徴を持っています。こうしたAIは、テキストと画像を対応させ識別するCLIPや、画像生成AI DALL-E・2の技術を土台にしており、AI技術の進展に伴い、例えば自動運転車など新しい体験を提供する可能性を広げています。
これらのマルチモーダルAIの発展は、高度な推論や新たな生活者体験の提供を促す革新的な技術として、大きな注目を集めています。
出典 : 「GPT-4o/マルチモーダルAI」| 広告朝日| https://adv.asahi.com/marketing/keyword/15615885