AIの暗部?最新GPT-4oの中国語トークンに潜む問題指摘

2024.05.21

WorkWonders

2024年5月に登場したOpenAIの高性能AIモデル「GPT-4o」は、文字や音声、映像を速やかに処理することが可能です。しかし、中国語を使用するユーザーから、トレーニングデータに問題があるとの指摘が上がっています。
プリンストン大学の研究生、蔡天楽氏によると、中国語のトークンデータにはポルノやスパムが混じっており、データ汚染が疑われます。それにより、AIが不正確な情報を学習してしまう恐れがあります。
また、日本語トークンにも不適切な情報源が含まれる可能性が指摘されています。このような問題は、AIの教材となるデータセットの質に直結し、信頼性に影響を与えかねません。GPT-4oの使用料金は、トークン数に応じて変動し、言語ごとにトークン数の最適化が図られていますが、今回の問題は従来モデルとのトークンライブラリの違いから生じていることが予想されます。

出典 : https://news.livedoor.com/article/detail/26443933/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください