最先端のAIモデルがコーディングタスクでどれだけのパフォーマンスを発揮するのかを理解するために、複数の視点から評価することが勧められています。
特に、HumanEvalという人間が作成したコーディング問題からなるベンチマークデータセットが、モデルが指定された要件に基づいて正確かつ機能的なコードを生成する能力を評価する標準的な手段とされています。
一方、Eloレーティングは、モデルが人間によってどれほど良いと評価されるかを測るためにも重要です。これはモデル同士を対戦させ、その勝敗に基づいて調整されるスコアで、より高いEloスコアを持つモデルは他のモデルよりも優れていることを示します。
この2つの指標を比較すると、OpenAIが作成したモデルが両方のメトリクスで上位に位置しており、特に小さいながらも優れた性能を発揮するモデル「o1-mini」が他のモデルと比較して優れていることがわかります。他の企業も密接に追随しており、性能面でほぼ同じレベルにあります。この情報はAIのコーディング性能についての理解を深め、最新のAI技術に対する興味を刺激するでしょう。
出典 : LLMs for Coding in 2024: Price, Performance, and the Battle for the Best https://towardsdatascience.com/llms-for-coding-in-2024-performance-pricing-and-the-battle-for-the-best-fba9a38597b6