「Pixel Art XL」を使って、ドット絵のかわいいゴリラを生成する

とある日。趣味でゲームづくりをしている夫から「モンスターの素材として、かわいいゴリラのイラストを作ってほしい」と言われました。

Hugging Face上のStable Diffusionデモ環境でいくつかプロンプトを打ちこみ、できたゴリラがこちら。

かわいいやん、と思って夫に見せると「うーん、かわいいけど、ゲームの雰囲気にあわせてドット絵で作ってほしい」とのこと。

プロンプトにpixel artを追加して何度か試してみたが、Stable Diffusionオンリーだと気持ち悪いタイル絵みたいな画像しか生成してくれず、困った困った。

調べた結果、Stable Diffusionでドット絵を生成するには「Pixel Art XL」というLoRA？が必要らしい。なるほど、よく分からんがやってみよう。

今回の目標

生成AIを使って、「ドット絵のかわいいゴリラ」イラストを作成する。

Stable Diffusionインストール

まずそもそも、ローカルマシンにStable Diffusion入れてなかったのでインストール。

Macの場合、以下を参考にすれば完璧だった。

soroban.highreso.jp

実行環境

MacBook Pro
チップ Apple M1
メモリ8GB
CPU 8コア

メモリが貧弱すぎて心配ですが、とりあえずM1チップ入っていれば大丈夫！ということなので、着々と進める。

お試し

起動までできたので、cat wearing sunglasses（サングラスをかけた猫）でプロンプト実行。

うっすら3つ目の耳が存在している気がしますが、無事に動作確認完了。

この画像ひとつ生成するだけで3分近くかかりました。もっとスペック高いPC欲しくなってきたな。

Pixel Art XLの導入

Pixel Art XLはLoRAですと言われて、意味が分からなかったのでググりました。

LoRAとは

LoRA（Low-Rank Adaptation）は、Stable Diffusionモデルに対して、数十枚の画像を利用して、追加学習させることによりファインチューニングが行えるものです。LoRAを利用することで元のモデルデータの特徴や学習を活かしながら、キャラクター性や服装などの特徴を固定して画像生成が可能です。

Stable Diffusion：Loraの利用方法について解説 | taziku / AI × クリエイティブ | 東京・名古屋

追加学習モデルってこと？とりあえず便利なことは分かった。

Pixel Art XLを適用する

Pixel Art XLはじめ、LoRAをローカルマシンに適用するには

LoRAファイルをインストール
ローカルのStable Diffusionディレクトリに配置

の手順が必要だそうです。

Pixel Art XLインストール

以下からインストールできます。

civitai.com

Stable Diffusionディレクトリに配置

インストールしたPixel Art XLを以下に配置します。

/stable-diffusion-webui-models/models/Lora/

LoRAにPixel Art XLが反映されないとき

配置後にStable Diffusionを再起動したのですが

nothing here. add some content to the following directories lora

一生このエラーが出て詰みました。配置してるっちゅーの。

解決策としては、Stable Diffusionから、Settings > Extra Networks を開き

Always show all networks on the Lora page(otherwise, those detected as for incompatible version of Stable Diffusion will be hidden)

にチェックを入れること。最後にApply Settingも忘れずに。

ようやく、LoraタブにPixel Art XLが反映されました！ﾔｯﾀｰ!!

画像生成

よーし、早速かわいいゴリラ作るわよ。

1回目

cute gorilla <lora:pixelbuildings128-v2:1>

最後のloraタグは、このlora使いますよという意味。さっきのLoraタブからpixel-art-xl-v1.1をクリックすれば勝手にプロンプトに追加してくれる。

結果

全然ドット絵じゃないんですけど。

2回目

cute gorilla, pixel art <lora:pixelbuildings128-v2:1>

どうやらpixel artを入れないとドット絵作ってくれないらしい。LoRAタグの意味…。

結果

Hugging Face上のStable Diffusionで生成したタイル絵みたいなゴリラが出来上がりました。

すみません、画像貼りたいところなんですけど、ワタクシ集合体恐怖症でして、自分が耐えられないので割愛します><

3回目

プロンプト以外にも、いろいろと設定が必要っぽい。

なにもかもよく分からないので、とりあえずPixel Art XLの最初にあるコーギーのサンプルを参考にさせてもらう。

civitai.com

cute gorilla, pixel art ,(flat shading:1.2), (minimalist:1.4) <lora:pixelbuildings128-v2:1>
Negative prompt: text, watermark, blurry, deformed, depth of field, realistic, 3d render, outline
Sampler: Euler a

結果

お、とりあえずドット絵にはなった！しかしこれはゴリラ？なのか？

他にもいろいろとツッコミどころが多すぎる。そしてかわいくない。

n回目

試行錯誤した結果、最終的に夫から「まぁいいだろう」と合格もらったゴリラがこちら。

a cute black gorilla with its whole body, (flat shading:1.2), (minimalist:1.4),  <lora:pixelbuildings128-v2:1>
Negative prompt: text, watermark, blurry, deformed, depth of field, realistic, 3d render, outline
Sampler: Euler a, Guidance: 8, Steps: 20

うーん、個人的には60点。背景もどうしてこうなったのか。

感想

ローカルマシンでStable Diffusionの導入まではスムーズだったけど、頭に描いている絵を生成してもらうためには、まだまだ勉強が必要そうです。奥が深いぞ画像生成AI…。

おまけ

顔は一番かわいくできたゴリラ。だけど足が…足が…！

なつやすみのじゆうちょう

人生はいつだって、ゲームみたいなものさ