最新の研究では、言語理解モデル(LLM)を使ってSQLクエリの生成を評価する可能性に注目が集まっています。
天才AI GPT-4 Turboを使用した実験では、F1スコアが0.70から0.76という成果を出しています。これは、AIが生成したSQLが正しく意図した結果を生むかを判定するための初めての一歩と言えるでしょう。
研究チームは、正しい問いとAIが生成したSQLからテスト結果を得て、実際のクエリと比較することでその正確性を測定しました。ただし、データベースの架空の構造に関する誤った前提や単位の違いが原因で誤りを生じることもありました。そこで、評価にデータベースの架構情報を含めたところ、結果が大きく改善されました。
しかし、挑戦はまだ残されています。たとえば、どのようにデータとその関係を正しくAIが理解するか、適切な架構情報をどれだけ含めるべきかといった問題点があります。この方法は完全ではありませんが、従来の手法に比べ、より複雑な誤りを捉えて、コンテキストや意図を理解する能力を示しています。
今後は、データベースへの自然言語インターフェースが普及するにつれ、その評価方法としてLLMの使用が一層重要になっていくでしょう。高校生の皆さんも、AIとSQLクエリの面白い研究に触れることができます。興味を持ったら、是非この先端の研究にご注目ください。
出典 : Evaluating SQL Generation with LLM as a Judge https://towardsdatascience.com/evaluating-sql-generation-with-llm-as-a-judge-1ff69a70e7cf