時代に追いつけ!大規模言語モデルの更新戦略

2025.04.11

WorkWonders

この研究は、NeurIPS 2024の「スケーラブルな継続的学習を備えた生涯基盤モデル」ワークショップで受け入れられました。歴史的なウェブデータに基づいて訓練された大言語モデル(LLMs)は、時間と共に古くなります。
私たちは、新しいデータが得られた際の評価手法と更新方法を探求します。Webスケールのデータセットを導入し、Common Crawlのデータダンプを使ってLLMsを継続的に学習させることで、既存ベンチマークの何桁もの大きさに挑戦します。
特定のドメイン(Wikipedia、StackExchange、コードドキュメント)だけでなく、一般的なCommon Crawlデータで時間に沿った評価を実施し、継続的学習方法がどの程度効果的に新しいデータに適応し、過去の知識を保持するかを検証しました。
私たちの研究結果は、一般的なCommon Crawlデータで、古いデータの一定割合を再生するオートレグレッシブメタスケジュールを組み合わせることが、ゼロから再訓練するのと同等の結果をもたらすことを示しています。ただし、計算コストは大幅に少なく(約2.6倍)、新旧のデータのバランスは重要で、特定のドメインでは過去のデータを再生することの重要性は低いことがわかりました。

出典 : TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining https://machinelearning.apple.com/research/tic-lm-web-scale

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓