AI性能対決:OpenAI対Google、意外な結果に!

2024.05.25

WorkWonders

最新の研究で異なる大規模言語モデル(LLMs)が比較され、Lars Wiik氏の架空の電話番号を取り出すタスクでその性能が評価されました。
使用されたプロンプトは「Performance Results」で始まり、いくつかのモデルが100種類の異なる文脈長でテストされました。
結果を示す折れ線グラフからは、文脈窓が長くなるほど、ノイズの増加により特定情報の抽出が困難になり、パフォーマンスが低下することが見て取れます。
特に目立った点は、GoogleとOpenAIのモデル間に性能の差があることでした。
グーグルの発表イベント「Google I/O 2024」ではGeminiモデルの記憶と文脈理解について熱弁されたにもかかわらず、このモデルは文脈長8kを超えると約50%の精度で頭打ちに。
一方、OpenAIのモデルはこのテストで優れたパフォーマンスを発揮し、特にgpt-4o、gpt-4-turbo-2024–04–09、gpt-4–0613がトップモデルとして挙げられました。
さらに興味深いことに、gpt-3.5-turbo-0125は全てのGeminiモデルよりも優れていることが報告されています。

出典 : https://medium.com/@lars.chr.wiik/openais-gpt-4o-vs-gemini-1-5-context-memory-evaluation-1f2da3e15526

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください