NVIDIAは、大規模言語モデル(LLM)の事前学習を促進するため、6.3兆トークンにも及ぶ英語データセット「Nemotron-CC」を発表しました。
Common Crawlから派生したこのデータセットは、1.9兆トークンの合成データも使用し、独自のデータキュレーション技術でモデルの正確性と効率を高めるとされています。
既存のデータセットは精度向上のためデータの大部分を切り捨てることが多いですが、Nemotron-CCは高品質なCommon Crawlデータを、より有効に活用する方法を提案。
特に、NVIDIAは分類器のアンサンブルやデータの言い換えなどの技術を駆使し、表現の多様性とデータ品質を向上させました。
これらの方法により、Nemotron-CCは従来のLLMを上回る結果を示し、長いトークンホライズンでの訓練にも効果的です。
さらに、今後NVIDIAは数学など特定の分野に特化したデータセットもリリースする計画であり、LLMの能力をさらに引き上げることが期待されています。
出典 : NVIDIA Introduces Nemotron-CC: A Massive Dataset for LLM Pretraining https://blockchain.news/news/nvidia-introduces-nemotron-cc-massive-dataset-llm-pretraining