脳の言語処理メカニズムを解き明かすWhisperの驚き

2025.03.23

WorkWonders

言語発生時には前頭下回(IFG)での言語埋め込み(青)が最高潮に達し、その後、運動感覚領域の音声埋め込み(赤)と側頭葉上回(STG)での音声符号化がピークに達することが明らかになりました。
対照的に、言語理解時には音声埋め込み(赤)のピークが単語開始後になり、IFGにおける言語符号化(青)よりも前に現れます。

昨今の研究成果によると、音声からテキストへのモデルであるWhisperの埋め込みが、自然な会話の言語処理の神経基盤の理解に有効であることを示唆しています。
特に興味深いことに、Whisperは音声認識用に開発されたにも関わらず、脳が言語をどう処理するかを考慮せずに作られていますが、その内部表現は自然会話時の神経活動と一致していました。

この一致から「ソフト階層」という概念が浮かび上がり、言語に関わる脳領域は単語レベルの意味や統語情報を優先するものの、音声埋め込みに対しても意味のある整合性を示していることが明らかになっています。
STGのような下位の音声領域は音響的、音声的処理を優先しつつ、単語レベルの情報も捉えています。これは音声と言語の両方の埋め込みと脳の動きとの間に見られる顕著な整合性から明らかです。

出典 : Deciphering language processing in the human brain through LLM representations https://research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓