DeepSeek社は、最先端のモデル「DeepSeek-V3」をオープンソース化しました。この大規模な言語モデルは、6710億のパラメータを持ち、各種ベンチマークテストで既存のオープンソースモデルを上回る性能を示しています。
特に、コーディングや数学の分野で優れた能力を発揮すると評価されています。
「DeepSeek-V3」は、新しい負荷分散戦略とマルチトークン予測目的を採用しており、トレーニング効率も向上。モデルの特徴としては、推論時には6710億のうちわずか370億のパラメータだけが活性化される点があります。
この技術により、既存のモデルとは一線を画しています。
研究チームは、高性能なNVIDIA H800 GPUを装備した計算クラスタでモデルをトレーニングし、新しい平行処理アルゴリズム「DualPipe」を使用した結果、記憶装置の使用を最適化しました。
さらに、指導調整後は、数学やコーディングといった分野のデータセットを用いて、細かなチューニングを施しました。
この革新的なモデル「DeepSeek-V3」は、Githubでソースコードの閲覧やHuggingfaceからのモデルファイルのダウンロードが可能です。
興味を持った研究者や開発者は、実際の性能を確かめてみる絶好の機会となるでしょう。
出典 : DeepSeek Open-Sources DeepSeek-V3, a 671B Parameter Mixture of Experts LLM https://www.infoq.com/news/2025/01/deepseek-v3-llm/