高解像度画像生成への新たなアプローチ：潜在拡散モデルの解説

2023.11.17

WorkWonders

潜在拡散モデルには主に3つの要素があります。

1つ目はVAE（変分オートエンコーダ）で、このモデルはエンコーダとデコーダの2つの部分から成り立っています。エンコーダは、大きな画像を小さな縮小版、「潜在表現」に変換します。この潜在表現がU-Netモデルの入力となり、ノイズ除去が行われます。

2つ目の要素はU-Netで、ノイズの乗った潜在表現を処理し、ノイズを予測します。そして、ノイズが予測されたところで、実際の潜在表現を算出します。

3つ目はテキストエンコーダで、入力プロンプトをU-Netへの入力となる埋め込み空間に変換します。

以上の組み合わせにより、高解像度画像の生成が可能になり、トレーニングと推論のコストが削減されます。これにより、高解像度画像の生成が一般に広まる可能性があります。次回は、新たなコンセプトやタスクを学ぶための手法、テキストインバージョンについてお話しします。

出典 : https://medium.com/@onkarmishra/stable-diffusion-explained-1f101284484d

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓