次世代AI、1万語を超える長文生成に成功!

2024.08.18

WorkWonders

清華大学のAI研究チームが、同僚と協力してLongWriterという大規模言語モデルを開発しました。
これは最大10,000語のテキストを生成できると主張しており、その詳細はarXiv予稿サーバーで公開された論文で説明されています。
従来、AIは約2,000語が限界とされていましたが、研究チームは長文のドキュメントでトレーニングすることにより、AIがより長いドキュメントを生成できることを発見しました。

実際のテストでは、従来のデータセットで訓練された90億パラメータを持つLLMが、2,000語を超えるテキストを作成することはできませんでした。
そこで研究チームは、トレーニング素材を処理する際にサブタスクに分解するAgentWriteというパイプラインを使用して伝統的なLLMを修正しました。
そして「LongWriter-6k」と名付けられた2,000〜32,000語の長さを持つ6,000の文書を含むデータセットを組み立て、修正されたLLMを訓練した結果、約10,000語までのドキュメントを生成する能力が向上しました。

LLMによって生成された長文は、一貫性があり、多くの文脈で使用可能であると評価されています。
そのモデルのオープンソースコードはGitHubで公開され、他の研究者が中国のチームの成果に基づいてさらなる研究を進めることが可能です。
さらに、LLMが長文の研究論文や本、さらには映画の脚本を生成することが可能になったため、倫理的な考慮が必要であるとも認めています。

出典 : AI researchers introduce an LLM capable of generating text outputs of up to 10,000 words https://techxplore.com/news/2024-08-ai-llm-capable-generating-text.html

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください