高解像度画像生成への新たなアプローチ:潜在拡散モデルの解説

2023.11.17

WorkWonders

潜在拡散モデルには主に3つの要素があります。

1つ目はVAE(変分オートエンコーダ)で、このモデルはエンコーダとデコーダの2つの部分から成り立っています。エンコーダは、大きな画像を小さな縮小版、「潜在表現」に変換します。この潜在表現がU-Netモデルの入力となり、ノイズ除去が行われます。

2つ目の要素はU-Netで、ノイズの乗った潜在表現を処理し、ノイズを予測します。そして、ノイズが予測されたところで、実際の潜在表現を算出します。

3つ目はテキストエンコーダで、入力プロンプトをU-Netへの入力となる埋め込み空間に変換します。

以上の組み合わせにより、高解像度画像の生成が可能になり、トレーニングと推論のコストが削減されます。これにより、高解像度画像の生成が一般に広まる可能性があります。次回は、新たなコンセプトやタスクを学ぶための手法、テキストインバージョンについてお話しします。

出典 : https://medium.com/@onkarmishra/stable-diffusion-explained-1f101284484d

【このニュース記事はAIを利用して書かれています】

著者名 :