中国Tencentの研究チームが開発した最新の大規模言語モデル「Hunyuan-A52B」は、堅牢な性能と高い効率性を誇ります。このモデルは、総パラメータ数は3890億個、その中でも活性化されるものが520億個に達し、一度に処理できるデータは25万6000トークンに及びます。
特筆すべき点として、学習に7兆トークンの膨大なデータを使用し、その中の1.5兆トークンは高品質な合成データでした。合成データを作る際、より良い質を保つために、4つの工程を経ています。
また、モデルは普遍的な知識を担う共有専門家と、特定のタスクに最適化された16の専門家というユニークな組み合わせを取り入れています。メモリ効率も考慮し、学習方法も工夫されています。
学習されたHunyuan-A52Bは、様々な能力を改善できるように設計されていて、評価実験では数々の分野で優れた成績を収めています。この技術が今後私たちの生活や業界にどのような影響を与えるのか、非常に楽しみです。
出典 : 中国テンセント、3890億パラメータのオープンソース大規模言語モデル「Hunyuan-Large」発表 https://www.itmedia.co.jp/aiplus/articles/2411/18/news051.html