現代の医療画像診断技術では、多くのアルゴリズムが比較され、微小な改善を競っていますが、それには落とし穴があります。
実際には、新しい手法の開発が様々な評価ノイズによって、その効果が見積もりにくい状況があります。
例えば、評価用データセットの選び方が、結果に大きく影響を与え、過学習やデータリークといった問題を生んでいることが知られています。
加えて、評価指標が本当に有益な改善を反映していない場合があるのです。
さらには、適切な基準となるベースラインの選定の難しさ、統計的な有意性の誤解も問題として挙げられます。
このような問題を解決するためには、単にベンチマークのスコアを上回ることを超えた、高い基準でのアルゴリズム評価が求められます。
最終的には、臨床試験のような、患者の健康成果に関連する指標で、実際の医療介入としてのアルゴリズムの有効性を評価することが重要です。
これにより、機械学習の進歩が実際の医療現場でどのような影響をもたらすかをより正確に測定することができるでしょう。
出典 : Machine learning for medical imaging: methodological failures and recommendations for the future – npj Digital Medicine https://www.nature.com/articles/s41746-022-00592-y