AIの透明性を高めるオープンデータセットの提案

2025.01.18

WorkWonders

AI企業は、著作権所有者の許可なしにデータを使用して大規模言語モデル(LLM)を訓練しているケースが多いです。これが許されるかどうかは法域によって異なります。例えば、EUや日本では一定の制約の下で認められていますが、アメリカでは法的な状況がより曖昧とされます。このような実状にも関わらず、クリエイティブな生産者からの懸念は、透明性の欠如と訴訟の脅威によって訓練データセットに関する情報の共有を最小限にする傾向を強めています。
この情報共有の限定は、AIモデルを理解するために必要な情報へのアクセスを研究者や監査人、影響を受ける個人たちから奪う形となり、広範なエコシステムにおいて透明性と説明責任、そしてイノベーションを妨げています。
オープンアクセスまたはパブリックドメインのデータを用いて言語モデルを訓練することは解決策の1つですが、書かれている時点ではそのように訓練されたモデルは存在しません。実現にはメタデータの不完全さや物理記録のデジタル化の費用と複雑さ、迅速に変化する環境における適切なデータセットを担保するために必要な多様な法律的技術的スキルが挑戦となっています。
責任をもってキュレーションされ、管理されたオープンライセンスデータでAIシステムを訓練する未来を構築するためには、法律、技術、政策ドメイン間の協力と、メタデータ基準への投資、デジタル化そしてオープンの文化を育むことが必要です。

出典 : Preprint: “Towards Best Practices for Open Datasets for LLM Training” https://www.infodocket.com/2025/01/16/preprint-towards-best-practices-for-open-datasets-for-llm-training/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

【お知らせ】
弊社ワークワンダース社主催の【無料】ウェビナーのご案内です。

ウェビナー画像

経営者/管理職のため30分でわかる「生成AIはじめの一歩」ショートセミナー【無料】


【登壇者】
安達裕哉(ワークワンダース代表取締役社長)

【日時】
2025年3月18日(火) 15:30~16:00 + 質疑応答

【募集人数】
30名

【参加費】
無料

【セミナーの内容】

1. 生成AIの利活用についての日本の現状
生成AIは世界中で可能性が模索されていますが、日本ではまだ利活用が限定的です。 日本企業は新技術の導入に対し慎重な傾向があります。

2. 何に使える?生成AI
生成AIは、新しいデータや情報を生成する能力を持っています。 企業の生産性向上に寄与する7つの主要な活用方法について解説します。

3. 生成AIの導入手続き
生成AIの導入にあたり、目的設定・課題評価・パイロットプロジェクト実施・ 社内展開・従業員教育の重要ポイントを解説します。

質疑応答
生成AIに関する疑問や不安を解消するために、参加者からの質問を受け付けます。

ご参加は以下のリンクからお申込みください。
▶ ウェビナーお申込みページはこちら