昨年のAI技術は、画像生成AI「Stable Diffusion」が1.5バージョンで、LLM(大規模言語モデル)は「GPT-4」が存在していましたが、それぞれが独立しており、互いに大きな関わりはありませんでした。しかし、その後の進展により、画像生成AIとLLMの関係は急速に深まり、使いやすさが格段に向上しました。
画像生成における指示は「プロンプト」と呼ばれ、「タグ」として画像の内容を細かく指定する方法が一般的でした。この方式は、新しいバージョンの「SD3 Medium」やその他のモデルにも対応していますが、より詳細な設定をするためには、英文での細かな記述が求められるようになりました。
さらに、位置関係やサイズなどを指定する新機能が追加され、例えば、「左に青いドレスの女の子、右に赤いドレスの女の子」といった詳細な指示が可能になりました。一方、日本語入力もサポートされており、英語が苦手な人でも簡単に画像生成を楽しむことができるようになったのです。
VRAM容量の制限から、ローカルPCでの使用が難しい場合がありますが、日本語対応の進化とユーザーフレンドリーなインターフェースの充実は、画像生成AIの新たな可能性を広げています。
出典 : https://pc.watch.impress.co.jp/docs/column/nishikawa/1601564.html