最近、AI界隈でディープシークという大言語モデル(LLM)が注目を集めています。IEEE Spectrumが、ディープシークの魅力をわかりやすくまとめた記事を掲載しました。
ディープシークには、パワフルな-V3と、独自の思考プロセスをタグで示す-R1の二種類があります。これらのモデルは革新的な開発プロセスで生まれ、誰でも自由に使ったり改良したりできます。
チャイナで開発された-V3モデルの訓練コストは600万ドル以下と言われており、DualPipeという効率的な訓練方法のおかげで、Nvidiaハードウェアの輸出制限を乗り越えることができました。
また、思考プロセスを示す-R1モデルは、手持ちプロセスを通じてステップバイステップで回答を導いていく利点があります。その訓練方法も、従来のものとは異なり新規性があります。
V3とR1モデルはオンラインやアプリを通じてフルパワーモデルへアクセスしたり、限られたハードウェアでの使い方を想定したモデルのダウンロードが可能です。しかし、その作業を繰り返すために必要な全てがオープンソースとして公開されているわけではありません。
公開された技術の詳細が波を呼び、完全なオープンソース版を目指す試みが始まっているそうです。Open-R1にも注目です。
出典 : More Details On Why DeepSeek Is A Big Deal https://hackaday.com/2025/02/03/more-details-on-why-deepseek-is-a-big-deal/