中国語トークナイザーに秘められた問題とは?新AIモデル「GPT-4o」の衝撃

2024.05.29

WorkWonders

オープンAIの新しい大規模言語モデル「GPT-4o」がリリースされましたが、中国語処理において問題が発覚しました。訓練データの不適切なクリーニングが原因で、ポルノやギャンブルに関連する用語が大量に含まれており、モデルが不正確な情報を生成する「ハルシネーション」を起こすことがあります。
中国語を理解するトークンの中には、日常会話で使われるものがわずかしかなく、ほとんどが不適切な内容でした。新しいトークナイザーは特に英語以外の言語をうまく扱うよう設計されているため、これにより英語のトークンコストを下げる効果はあるものの、この問題によって中国語の処理性能に影響が出ています。

出典 : https://www.technologyreview.jp/s/336754/gpt-4os-chinese-token-training-data-is-polluted-by-spam-and-porn-websites/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。