現代の機械学習(ML)モデルは、スパムフィルターから推薦システム、仮想アシスタントに至るまで、私たちの生活のあらゆる場面に存在しています。これらのモデルは膨大な学習データにより高い性能を実現しますが、そのデータには個人情報や著作権に関わる情報が含まれることもあります。
それゆえに、MLの実用化において訓練データのプライバシーを保護することは極めて重要です。差分プライバシー(DP)は、データの匿名化について形式的な理解を可能にする最も広く受け入れられている技術の一つで、MLモデルにおいて個々のユーザーの寄与がモデルに大きく影響しないことを保証することができます。
DPを活用した学習データ保護の成功例はあるものの、差分プライバシーを用いたML技術(DP-ML)では、モデルの有用性とプライバシーのバランスを取ることが課題となることが多いです。実装にあたっては、アーキテクチャやハイパーパラメータの調整などが欠かせず、その方法論には限定的で難解なガイドラインしかありません。
我々の論文「How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy」では、DP-MLの研究の現状を議論し、DP-MLモデルを得るための一般的な技術や課題、軽減テクニック、現在の未解決問題についての概要を提供します。この成果に基づくワークショップは、2023年のICMLとKDDで開催予定です。
この概要では、高校生でも理解できるように、MLにおけるプライバシー保護の重要性とその実現方法について解説しています。_DPはMLモデル開発プロセスのいくつかの段階に導入することができますが、その中でも最も保護が強いのは、入力データレベルでの導入です。
これからのDP-ML技術の発展により、私たちはよりセキュアなデータ利活用の未来を期待しています。
出典 : Making ML models differentially private: Best practices and open challenges https://research.google/blog/making-ml-models-differentially-private-best-practices-and-open-challenges/