次世代AIモデル「DeepSeek-V3」が671Bパラメータで新記録!

2025.01.22

WorkWonders

DeepSeek社は、最先端のモデル「DeepSeek-V3」をオープンソース化しました。この大規模な言語モデルは、6710億のパラメータを持ち、各種ベンチマークテストで既存のオープンソースモデルを上回る性能を示しています。
特に、コーディングや数学の分野で優れた能力を発揮すると評価されています。

「DeepSeek-V3」は、新しい負荷分散戦略とマルチトークン予測目的を採用しており、トレーニング効率も向上。モデルの特徴としては、推論時には6710億のうちわずか370億のパラメータだけが活性化される点があります。
この技術により、既存のモデルとは一線を画しています。

研究チームは、高性能なNVIDIA H800 GPUを装備した計算クラスタでモデルをトレーニングし、新しい平行処理アルゴリズム「DualPipe」を使用した結果、記憶装置の使用を最適化しました。
さらに、指導調整後は、数学やコーディングといった分野のデータセットを用いて、細かなチューニングを施しました。

この革新的なモデル「DeepSeek-V3」は、Githubでソースコードの閲覧やHuggingfaceからのモデルファイルのダウンロードが可能です。
興味を持った研究者や開発者は、実際の性能を確かめてみる絶好の機会となるでしょう。

出典 : DeepSeek Open-Sources DeepSeek-V3, a 671B Parameter Mixture of Experts LLM https://www.infoq.com/news/2025/01/deepseek-v3-llm/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

【お知らせ】
弊社ワークワンダース社主催ウェビナーのご案内です。


<2025年1月21日実施セミナー>

生産性を爆上げする、「生成AI導入」と「AI人材育成」のコツ


【内容】
1. 生産性を爆上げするAI活用術(安達裕哉:ワークワンダース株式会社 代表取締役CEO)
2. 成功事例の紹介:他業種からAI人材への転身(梅田悟司:ワークワンダース株式会社CPO)
3. 生成AI導入推進・人材育成プログラム「Q&Ai」の全貌(元田宇亮:生成AI研修プログラム「Q&Ai」事業責任者)
4. 質疑応答



日時:
2025/1/21(火) 16:00-17:30

参加費:無料  
Zoomビデオ会議(ログイン不要)を介してストリーミング配信となります。



お申込み・詳細 こちらウェビナーお申込みページをご覧ください

(2024/12/11更新)