中国語トークナイザーに秘められた問題とは?新AIモデル「GPT-4o」の衝撃

2024.05.29

WorkWonders

オープンAIの新しい大規模言語モデル「GPT-4o」がリリースされましたが、中国語処理において問題が発覚しました。訓練データの不適切なクリーニングが原因で、ポルノやギャンブルに関連する用語が大量に含まれており、モデルが不正確な情報を生成する「ハルシネーション」を起こすことがあります。
中国語を理解するトークンの中には、日常会話で使われるものがわずかしかなく、ほとんどが不適切な内容でした。新しいトークナイザーは特に英語以外の言語をうまく扱うよう設計されているため、これにより英語のトークンコストを下げる効果はあるものの、この問題によって中国語の処理性能に影響が出ています。

出典 : https://www.technologyreview.jp/s/336754/gpt-4os-chinese-token-training-data-is-polluted-by-spam-and-porn-websites/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください