次世代AIの挑戦:テキストと音声を理解するSPIRIT LLMの開発

2024.10.25

WorkWonders

インターネット規模のデータセットで訓練された巨大言語モデル(LLMs)は、テキスト要約や翻訳、複雑な推論タスクを含む幅広い作業を遂行できますが、音声通信の細かなニュアンスを逃してしまうことが欠点でした。
それに対し、音声言語モデル(SpeechLMs)は、音声の言葉だけでなく、ピッチや感情の違いも含む発話を処理できます。ただし、特定のタスクに特化しているため、LLMsほど幅広いタスクに対応できません。

この問題に挑んだのがMeta AIの研究チームによって開発されたSPIRIT LLMです。これはテキストと音声データの両方を理解し、生成できるように訓練されています。特に、表現力豊かな言語の理解が可能で、LLMsの限界を超えたモデルとなっています。

SPIRIT LLMには、基本となるBASE版と、音声の表現性をさらに高めたEXPRESSIVE版があります。EXPRESSIVE版は、話者の感情や声色を反映する追加のトークンを使用します。しかし、まだLLMsの性能には及ばないため、今後もデータセットの改善が求められています。
高校生でも興味を持つような、次のステップへと進むAI技術の進化を見守りましょう。

出典 : An LLM So Good, It’s Scary https://www.hackster.io/news/an-llm-so-good-it-s-scary-488418945869

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。