これまでのテキスト生成ではディファレンシャルプライバシー(DP)を保つことや計算効率の問題から、少量のデータ点しか生成できませんでしたが、新たな技術により、質とプライバシーを維持しつつ、それを大幅に増やすことが可能です。
プライバシーバジェットとは、意味のあるDP保証を維持しながらモデルが出力できる情報量を制限するもので、ランダム性を介して個々のデータポイントの寄与を隠蔽し、信憑性の否認を可能にします。
次に、確率に基づいたトークン選択を行うDP技術と、言語モデルのトークンサンプリングを結びつけることで、プライバシーを保ちながら出力を増やす手法を提案します。
さらに、計算効率の問題を解決するため、同じ文脈を生成の各ステップで使用して再計算を避ける新しいプライバシー分析を提唱し、KVキャッシングなど標準的な推論効率技術と互換です。
最後に、すでに生成された合成テキストのみを基に次のトークン予測を行う「公開ドラフター」モデルも導入しました。このモデルでは、予測が機密データに基づいて行われたものと不一致でない限り、プライバシーバジェットを消費せずに合意された案を採用します。これは特に、多くのフォーマット関連トークンを機密データを見ずに予測可能な構造化データにおいて効果的です。
出典 : Generating synthetic data with differentially private LLM inference https://research.google/blog/generating-synthetic-data-with-differentially-private-llm-inference/