中国のDeepSeek社が開発した最新の言語モデル”DeepSeek-V3″が業界の常識を覆す性能を発揮しています。OpenAIのGPTモデル以降、大きな変化が見られなかった大規模言語モデル(LLMs)の世界に、このモデルは驚きをもって迎えられています。
DeepSeek-V3はオープンソースとして公開されており、従来のモデルのわずかな訓練時間で優れた性能を実現したと謳っています。これは驚異的な6710億個ものパラメーターを、NVidiaの最新GPUであるH800を使い、2.788百万時間で訓練したということです。
この効率の良さは、LLM産業に新たな波紋を投じることでしょう。投資家やNVidia社以外の者も、MITライセンスの下で公開されたこの新しいモデルを利用でき、計算リソースや電力消費の削減が期待されます。
さらにDeepSeek-R1という理由付けモデルも公開されており、AMDとNVidiaのGPUを使用してローカルで実行することができるほか、オンラインAPIを介しても利用可能です。
出典 : New Open Source DeepSeek V3 Language Model Making Waves https://hackaday.com/2025/01/27/new-open-source-deepseek-v3-language-model-making-waves/