医学分野のデータ解析において、中国・西中国医院のレントゲン画像データとテキスト形式の臨床データを使用して、AIモデルが肺疾患の同定やCOVID-19患者の予後予測を行う研究が進んでいます。
画像のみを用いた診断モデル、様々な早期・後期データ統合手法、さらには最先端のトランスフォーマーベースの多モード分類手法が導入されており、それらの実験的比較が行われています。
特に注目されるのはGITという生成画像からテキストへの変換モデルや、Perceiverという多様な入力データを扱うことができるモデルで、これらが我々のデータセット上で微調整されることにより、診断精度が向上しています。
評価では標準化された注意解析戦略を用いており、検証セットでのモデルのパフォーマンスに基づいて最良のモデルが選定されます。
この分野でのさらなる研究と発展は、医療AIの精度を高め、最終的には患者の予後改善に繋がります。
出典 : A transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics – Biomedical Engineering https://www.nature.com/articles/s41551-023-01045-x