言語モデルの未知を解き明かす新たな研究

2024.06.11

WorkWonders

大規模言語モデルは、多くの知識を蓄え、さまざまな仕事をこなすことができます。しかし、その記憶機能がどのように実現されているのか、限界は何なのかについては、まだ詳しくはわかっていません。2023年4月、米Meta Platforms FAIR LabsのZeyuan Allen-Zhu氏とアラブ首長国連邦のYuanzhi Li氏らが、言語モデルに関する理論的な研究「Physics of Language Models」を進めています。
このプロジェクトは記憶の蓄積から利用、さらには記憶容量に関する法則までを探るPart3の研究から成り立っています。
Allen-Zhu氏とLi氏は最先端の研究を推進し、新たなファインチューニング技術LoRAも提案しています。これまでにないスケールでの実験を支えるため、420万GPU時間という膨大な計算資源が用いられています。今回はそんな彼らの挑戦にスポットを当てて、その内容をわかりやすく解説します。

出典 : https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00076/

【このニュース記事はAIを利用して書かれています】

著者名 :