大規模言語モデルが眼科救急に革命をもたらす?

2025.01.22

WorkWonders

本研究では、さまざまな大規模言語モデル(LLM)を用いて眼科救急の質問への回答の能力を評価し、イギリスの国民保健サービス(NHS)の111番オンラインシステムとの精度を比較しました。
評価対象は、NHS 111のトリアージアルゴリズムに基づく21の緊急事態に関する質問で、チャットボットの回答精度が比較されました。
使用されたモデルには、ChatGPT-3.5、Google Bard、Bing Chat、ChatGPT-4.0が含まれます。
各LLMチャットボットの回答精度は二つのプロンプト戦略を使用してNHS 111のトリアージと比較され、評価は「非常に悪い」から「優れた」までの6段階で行われました。
結果は、LLMの回答が93%が「良い」と評価され、少なくとも一部に正しい情報が含まれ、誤った情報がないことを意味します。
また、二つのプロンプトで顕著な差はありませんでした。
これにより、LLMは情報提供と患者への指導に有効で、デジタル時代における患者ケアと医療アクセスの向上に寄与する有望なツールであると結論づけられました。

出典 : “Comparative analysis of large language models against the NHS 111 online triaging for emergency ophthalmology” – Eye https://www.nature.com/articles/s41433-025-03605-8

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓