多言語LLMsの自然さを解明する新研究

2025.05.18

WorkWonders

現在の大規模言語モデル(LLMs)は英語を主言語として設計されているため、多言語モデルであっても英語中心のバイアスが強いです。このため、LLMsが生成する非英語のテキストは不自然さを帯びてしまうことがよくあります。
この問題の重要性にもかかわらず、多言語LLMsが出力するテキストの自然さに対する注目はまだ限られています。
本研究では、多言語文脈におけるLLMsの出力の語彙と文法の自然さを評価する新しい自動コーパスレベルの指標を提案し、フランス語と中国語で最先端のLLMsを評価しました。
その結果、英語の影響を受けた傾向が明らかになりました。
この問題を軽減するために、対象言語とドメインの自然さを向上させる簡単で効果的な方法を提案し、一般的なベンチマークの性能を損なわずに自然さを高める結果が得られました。
私たちの研究は、新世代の多言語LLMsにとって、多言語指標、リソース、方法の開発の重要性を強調しています。

出典 : Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs https://machinelearning.apple.com/research/english-accent

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓