潜在拡散モデルには主に3つの要素があります。
1つ目はVAE(変分オートエンコーダ)で、このモデルはエンコーダとデコーダの2つの部分から成り立っています。エンコーダは、大きな画像を小さな縮小版、「潜在表現」に変換します。この潜在表現がU-Netモデルの入力となり、ノイズ除去が行われます。
2つ目の要素はU-Netで、ノイズの乗った潜在表現を処理し、ノイズを予測します。そして、ノイズが予測されたところで、実際の潜在表現を算出します。
3つ目はテキストエンコーダで、入力プロンプトをU-Netへの入力となる埋め込み空間に変換します。
以上の組み合わせにより、高解像度画像の生成が可能になり、トレーニングと推論のコストが削減されます。これにより、高解像度画像の生成が一般に広まる可能性があります。次回は、新たなコンセプトやタスクを学ぶための手法、テキストインバージョンについてお話しします。
出典 : https://medium.com/@onkarmishra/stable-diffusion-explained-1f101284484d