AIコーディング能力の新たな評価法とは?

2025.03.16

WorkWonders

人工知能のコーディング能力を測るためのベンチマークには課題があった。従来のテストでは基本的なタスクのみを評価し、実際の開発現場で求められるコードの理解や再利用といった能力を見ることができなかった。
イェール大学と清華大学の研究チームが新しい評価基準を開発しました。「自己呼び出しコード生成」と呼ばれるこの方法は、単に新しいコードを生成するだけではなく、生成したコードを複雑な問題解決のために再利用する能力も試されます。
既存ベンチマークとの比較では、最新のAIモデルでも性能が10%から15%低下することが確認されたのです。
この新しいベンチマークは、ソフトウェア開発現場のコード品質の向上にも寄与する可能性があり、コード品質の低さによる損失を低減できるかもしれません。
開発チームは、この評価法を他のベンチマークにも応用できるとしています。

出典 : 開発者のコーディングタスクに応じて最適なLLMを選定 イェール大学らが新ベンチマークを開発 (2025年3月15日) https://www.excite.co.jp/news/article/AMP_453769/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓