新しい研究により、大規模言語モデル(LLM)の事前トレーニングにコードデータを含むことが、コーディング以外のタスクのパフォーマンスにも重要であることが明らかにされました。
研究では、異なる比率のテキストとコードのデータセットでトレーニングしたモデルを評価し、コードの量や品質、モデルの大きさなどが一般的なタスクの性能に与える影響を分析しました。
特に、全てコードでのプレトレーニングが、自然言語推論タスクで高い効果を示す一方、世界知識タスクでは文字とコードのバランスの取れたデータが最適であることがわかりました。また、生成タスクでは、コードデータを含むモデルが、それを含まないモデルよりも良い結果を出しています。
モデルのサイズが大きくなるにつれて、コードデータを追加することの利点が増していく傾向も観察され、特に世界知識とコード性能において顕著でした。
この研究は、実際のアプリケーションにLLMを適用する際に、どのようにトレーニングデータを最適化するかについての洞察を提供しており、今後のモデル開発や製品展開に大きな影響を与えると考えられます。
出典 : Code in pre-training data improves LLM performance at non-coding tasks https://venturebeat.com/ai/code-in-pre-training-data-improves-llms-performance-at-non-coding-tasks/