Generative AI(生成型AI)モデルが医療分野に導入されつつありますが、効率化や新たな洞察を提供する一方、その導入は時に拙速かもしれません。批評家は、これらのモデルに内在する欠陥や偏見が健康結果を悪化させる可能性を指摘しています。
AIスタートアップのHugging Faceは、医療関連のタスクでAIモデルの性能を評価するためのベンチマークテスト「Open Medical-LLM」を提案しました。これは、一般的な医学知識をはじめとする、解剖学や薬理学などの分野におけるAIモデルの能力を測るテストを集合させたものです。
ただし、Googleがタイの医療システムに糖尿病性網膜症のAIスクリーニングツールを導入しようとしたときの経験は、AIモデルの実際の適用における難しさを浮き彫りにしています。AIモデルがどのように臨床態勢に適用されるか、また時間の経過とともに結果がどうなるかは、依然として大きな問題です。
Open Medical-LLMは有用なツールですが、実際の臨床テストに代わるものではありません。高い正答率を誇るAIでさえ、基本的な健康関連の質問への答えが不十分であることをOpen Medical-LLMの結果は示しています。実際の臨床テストを慎重に行うことの重要性は変わりません。
出典 : https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-generative-ai-on-health-tasks/