AIの大型言語モデルを開発するにあたり、適切な訓練データの選択が非常に重要です。ウォッシュントン大学とアレン人工知能研究所の研究者たちは、訓練データがAIの性能に大きな影響を及ぼすと指摘しています。不適切なデータセットは偏見の増幅やタスク性能の低下を引き起こし、後で大規模な修正が必要になることもあります。
データセットの選択はコストがかかり、環境にも大きな負荷をかけるため、効率的な方法が求められていました。この問題に対処するため、Ai2は「DataDecide」というモデルやベンチマーク、レコメンデーションを含むスイートをリリースしました。小規模な実験により、大規模な性能を驚くほど正確に予測できることが分かっています。
この発見は特に、計算リソースが限られた小規模の研究室やスタートアップにとって重要であり、高価な資源を使用する前に適切なデータセットを選ぶ手助けをしてくれます。DataDecideは、データの背景や選択に関するトレードオフを理解するのに役立つため、より費用対効果の高いAI訓練が可能になることを約束しています。
出典 : New Tools Help LLM Developers Choose Better Pre-Training Data https://thenewstack.io/new-tools-help-llm-developers-choose-better-pre-training-data/