中国のスタートアップ企業DeepSeekが、他社の数分の一のコストで開発した新型大規模言語モデル(LLM)「DeepSeek V3」を発表し、AIコミュニティに波紋を広げています。
この技術は、チャットボットなどのサービスで使用されており、オープンソースで開発されています。
DeepSeek V3は6710億パラメータを持ち、わずか2ヶ月という短期間で訓練されました。
驚くべきは、その訓練に必要なGPU時間が280万時間と、Facebookの親会社メタやOpenAIといった大企業のモデルに比べて非常に少ないことです。
しかし、V3モデルは、ある質問に対して自身をOpenAIのChatGPTと誤認する問題が生じたことで議論を呼んでいます。
この種の誤認はAIモデル間で一般的な問題で、インターネット上のデータが既にGPTによって影響を受けているためと考えられています。
それでも、DeepSeekのV1 LLMは、Hugging Faceという世界最大の機械学習およびオープンソースAIコミュニティで最も人気のあるAIモデルとしてランク付けられています。
このようにコストパフォーマンスと技術革新を両立するDeepSeekの動きから目が離せません。
出典 : Meet DeepSeek: the Chinese start-up that is changing how AI models are trained https://www.yahoo.com/tech/meet-deepseek-chinese-start-changing-093000172.html