最先端の巨大言語モデル(LLM)は、広範なデータセットから言語のパターンを学びますが、一体どれだけを「記憶」し、どれだけを「一般化」して理解するのでしょうか。
新しい研究により、LLMが覚える能力には限界があることが明らかになりました。たとえ巨大なデータセットでトレーニングされても、モデルの各パラメータあたり約3.6ビットの情報しか記憶できないとされています。
モデルのサイズが増えても、トレーニングデータの量が増えても、モデルが特定のデータポイントを覚えることはなく、一般化するパターンを学習する方向に変わります。これはプライバシーや著作権などのリスクを減少させることを意味します。
研究チームはランダムなビット列を使用してモデルの記憶能力をテストし、モデルがどの程度の情報を持っているかを正確に測定しました。
この研究成果は、LLMが著作権で保護された素材を単にコピーするのではなく、データからパターンを学ぶことを示しており、AI開発の透明性を高めるだけでなく、法的な議論にも影響を与える可能性があります。
ますます多くのデータをトレーニングに利用することで、より安全な一般化が促進されることを私たちは期待することができます。
出典 : How much information do LLMs really memorize? Now we know, thanks to Meta, Google, Nvidia and Cornell https://venturebeat.com/ai/how-much-information-do-llms-really-memorize-now-we-know-thanks-to-meta-google-nvidia-and-cornell/