近年、人工知能(AI)技術の進歯により、専門性を持った大規模言語モデル(LLM)が研究分野で注目されています。
だが、専門知識を学習させるためのデータは不足しており、文献や教科書を翻訳するなどしてデータを増やす努力が必要です。
特に問題となるのは、文法や論理は一見まともでも、実はねつ造された論文である「ペーパーミル」です。
これらはトリッキーに進化し、査読者や編集者を惑わす存在になっています。
東京工業大学の研究では、専門領域外のデータを学習させると性能が低下することから、データ選択の重要性がうかがえます。
短期的には検索拡張生成(RAG)技術によって、外部データベースを参照することで品質の管理が可能になりますが、
長期的には品質保証の仕組みが必要になると予想されます。
次世代AI研究への礎を築くための、切実な課題と対策を紐解いていきます。
出典 : https://newswitch.jp/p/41691