世界のトップ企業が提供する言語モデル(LLM)において、構造化された出力を効率的に提供する技術が進展しています。
OpenAIのGPT-4oは、Pydanticのデータモデルを利用して、要求されたフィールドに基づいたJSONを直接生成できますが、僅かに失敗する可能性もあります。
一方、AnthropicのClaude Sonnet 3.5は特定のテクニックを利用することでJSON出力の精度を高めていますが、完全ではありません。
また、GoogleのGemini 1.5 Proは、genai.protos.Schemaクラスを使用する必要があり、そのなかにはいくつかの課題も抱えています。
これらの技術は、様々なツールやAPIのドキュメントリンク付きで、実装の詳細が共有されており、開発者や研究者にとって参考になるでしょう。
LMMの出力を構造化することは、後続のアプリケーションに安定した入力を提供し、エラーを減らすために不可欠です。
こうした技術の詳細については、オープンソースのツールであるDatachainを通じて検証されています。
出典 : Enforcing JSON outputs in commercial LLMs https://towardsdatascience.com/enforcing-json-outputs-in-commercial-llms-3db590b9b3c8