大言語モデルが科学研究を革命的に変える可能性

2025.04.06

WorkWonders

科学の進歩は、科学文献に蓄積された集合知を活用する能力に依存しています。
これには深い専門知識と推論スキルだけでなく、特定の問題の文脈内でその知識を応用する能力も求められます。大言語モデル(LLM)はすでに、一般常識の理解、言語理解、プログラミング、数学、科学的な問いに答えるといった広範な領域でその知識の幅を示しています。
これらのモデルは知識を表面的に提示するだけから推論し、積極的に問題を解決する段階へと移行しており、科学的な取り組みへの応用は莫大な可能性を秘めており、研究の方法や理解の仕方を革命的に変えることが約束されています。

しかし、科学的なタスクにおける複雑さを扱うLLMの能力を厳密に評価することが必要であり、長文で文脈が豊富な科学情報を理解し、理論化するモデルの能力を測定することが不可欠です。
さらに、手段として選ばれる推論プロセスを理解すること、図表などの多様なコンテンツにも対応することが求められます。現在のLLMの科学分野におけるベンチマークは、主に知識の想起と、推論能力をある程度試す短形式の質問と選択式の回答に焦点を当てていることが多いです。

このギャップに対応するため、私たちはLLMの情報検索と問題解決能力を測定するための新しいベンチマークやデータセットをいくつか提案しています。
私たちの論文「CURIE: Multitask Scientific Long-Context Understanding and ReasoningでのLLMの評価」は、長い文脈の理解、推論、情報抽出、集計の能力を検証する科学6分野のタスクに焦点を当てており、2025年のICLRで発表されます。
同様に、2024年のNeurIPSで「SPIQA: Scientific Papersにおける多モーダル質問応答のためのデータセット」という研究を発表しました。これは、LLMが科学論文からの図表に基づいて応答を提供する能力を評価するものです。さらに、私たちは多モーダルLLMに関するベンチマークテストセットも作成し、そのタスクで評価しました。
また、NeurIPS 2024のMATH-AIワークショップでは、「FEABench: Multiphysics Reasoning Abilityにおける言語モデルの評価」という研究を共有しました。これは、LLMエージェントが物理、数学、工学の問題を有限要素解析(FEA)ソフトウェアを使ってシミュレートし、推論し、解決する能力を測るタスクを提案しています。

出典 : Evaluating progress of LLMs on scientific problem-solving https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓