ステーブル・ディフュージョンは、AIの力で画像を生成する最先端技術です。まず、大量の画像とテキストのペアから学習したモデルを使います。このモデルは画像にノイズを加えたり減らしたりしながら、ノイズのないきれいな画像を「予測」する方法を学びます。次に、「トークナイザー」と呼ばれるモデルが、入力された文章をトークン化し、画像生成のプロセスに必要なデータに変換します。
バリエーション・オートエンコーダー(VAE)デコーダーは、小さいデータから大きな画像を生成する役割を果たします。CLIP(コントラスティブ・ランゲージ・イメージ・プリトレーニング)テキストエンコーダーは、画像と関連するテキストがマッチするようにします。そして、デノイザーであるUNetとスケジューラー(サンプラー)が、細かいディテールを処理し、ノイズを段階的に減らすプロセスを導きます。
記事全体では、これらの要素がどう連携して画像を生成するか、簡潔に説明します。高校生でも理解できるような平易な表現で、AI画像生成の仕組みとその背後にある技術を学ぶことができます。興味を持っていただけたら幸いです。
出典 : Breaking Down Stable Diffusion https://medium.com/@shitijnigam/breaking-down-stable-diffusion-1cfe9d71ded3