オープンAIの新しい大規模言語モデル「GPT-4o」がリリースされましたが、中国語処理において問題が発覚しました。訓練データの不適切なクリーニングが原因で、ポルノやギャンブルに関連する用語が大量に含まれており、モデルが不正確な情報を生成する「ハルシネーション」を起こすことがあります。
中国語を理解するトークンの中には、日常会話で使われるものがわずかしかなく、ほとんどが不適切な内容でした。新しいトークナイザーは特に英語以外の言語をうまく扱うよう設計されているため、これにより英語のトークンコストを下げる効果はあるものの、この問題によって中国語の処理性能に影響が出ています。
出典 : https://www.technologyreview.jp/s/336754/gpt-4os-chinese-token-training-data-is-polluted-by-spam-and-porn-websites/