OpenAIは、インターネット上の膨大なデータを活用しAIモデルを訓練してきましたが、
さらなる精度向上のため、特定分野のデータ収集に公衆の協力を積極的に求めています。
新プログラム「OpenAI Data Partnerships」を通じて、公開および非公開のデータセットを作成し、GPT-4やGPT-4 Turboなどのモデルの訓練に使用します。
OpenAIは、現在容易に入手できないが「人間社会を反映した」大規模なデータセットに注目しており、テキスト、画像、オーディオ、
ビデオなどあらゆる形態のコンテンツを扱えるとしています。
特に、断片化されていない長文や対話など「人間の意図」を表すデータに関心を持っています。
また、アイスランド政府やMiðeind ehf.と協力して、AIがアイスランド語を話す能力を向上させるためのデータセットを作成していることや、法的文書が豊富な非営利組織Free Law Projectとの提携により、
法的理解の民主化を目指していることが明かされました。
さらに、OpenAIは個人データや第三者の情報を含むデータセットの取り扱いを望まず、オープンソースのデータセットの構築に重点を置いています。
プライベートなAIモデルの訓練用に特別なデータセットの準備にも興味を示しています。
ただし、Demandが原因でサービスの不安定が予想される中、ChatGPTはDDoS攻撃を受けましたが、2日間で解決しました。
これらの動きを反映した新しいパートナーシップで、AIの未来においてさらに重要な役割を果たすことになるかもしれません。
出典 : OpenAI Asks Public for More Data to Train Its AI Models https://aibusiness.com/data/openai-asks-public-for-more-data-to-train-its-ai-models