インターネット規模のデータセットで訓練された巨大言語モデル(LLMs)は、テキスト要約や翻訳、複雑な推論タスクを含む幅広い作業を遂行できますが、音声通信の細かなニュアンスを逃してしまうことが欠点でした。
それに対し、音声言語モデル(SpeechLMs)は、音声の言葉だけでなく、ピッチや感情の違いも含む発話を処理できます。ただし、特定のタスクに特化しているため、LLMsほど幅広いタスクに対応できません。
この問題に挑んだのがMeta AIの研究チームによって開発されたSPIRIT LLMです。これはテキストと音声データの両方を理解し、生成できるように訓練されています。特に、表現力豊かな言語の理解が可能で、LLMsの限界を超えたモデルとなっています。
SPIRIT LLMには、基本となるBASE版と、音声の表現性をさらに高めたEXPRESSIVE版があります。EXPRESSIVE版は、話者の感情や声色を反映する追加のトークンを使用します。しかし、まだLLMsの性能には及ばないため、今後もデータセットの改善が求められています。
高校生でも興味を持つような、次のステップへと進むAI技術の進化を見守りましょう。
出典 : An LLM So Good, It’s Scary https://www.hackster.io/news/an-llm-so-good-it-s-scary-488418945869