Stable Diffusion Demoで素材を作ってみる(後編)

 前回の記事を書いた後、「Stable Diffusion Demo」に入力するテキストが「呪文」と呼ばれていて、ステキ画像を呼び出すには、どんな呪文を使えばどんな画像にあるか、ある程度、呪文にも習熟しなきゃいけないことが分かったわ。今日は、私が 「Stable Diffusion Demo」 で作った素材をいろいろUPして、 「Stable Diffusion Demo」 の使い勝手、感想をまとめてみたよ。

リコーダー 

 自分のブログで使うWeb素材を作るということで、リコーダー関連の素材から作ってみたのですが、分かったことは…

「recorder」は謎楽器の呪文!

 ってこと。「a recorder」「a treble」「a flute of the Baroque period 」「musical instruments of the Baroque period」など、呪文をいろいろ変えても、まともなリコーダーが1本も出てこなかった…。謎楽器が次から次へと爆誕したので、いくつか紹介しておくわ。吹奏楽器ってことは分かってるみたいね。

下段真ん中は惜しい!。グレートバスっぽい

 リコーダーを吹く人

 さらに、AIは、動きがある人間を描くのが苦手なことも分かったわ。リコーダーを演奏している人物の画像をお願いしてみたら、腕が4本とか、足が消えてたり、片手に指が10本くらいあってぐにゃぐにゃに曲がってたり、今度はクリーチャーが爆誕(T-T)。
 下の2枚は一番まともだった画像。左は「リコーダーを演奏している少年」、右は「リコーダーを演奏している妖精」でお願いしたのだけど、指や足が溶けてるし、もはや何の楽器を演奏しているのかも分からん…。この画像を出した呪文の詳細も、一応のせておきますね。興味ない人はスルーしてください。

左の呪文】
「a light color pastel illustration of a boy playing the recorder in the meadow, followers bloom, like a scene of cinema, by Raymond Peynet」
【右の呪文】
「a light color pastel painting of fairy in silver dress, with wings on back, playing the recorder in the grassland, flowers bloom, beautiful eyes, highly detailed, by John Everett Millais」

お菓子とパン

アップルパイ&テーブルロール

  1回ではうまくいかなかったけど、呪文をちょっと修正したら、人物よりはるかに高い確率で、素敵な素材が生成されましたー。
 左の絵は「アップルパイとコーヒー」。 右の絵は「カゴいっぱいのテーブルロール」。右の絵が出てきた時は、ちょっとびっくりしたわ。私が好きな画家、アンドリュー・ワイエスの画風を指示したのだけど、 色合い、タッチが本当にワイエスっぽーい 。私はワイエスの絵画では『松ぼっくり男爵』が一番好きなのですが (Webでも見ることができるよ→WikiArt 「Pine Baron」)、このパンの盛られた感じが『松ぼっくり男爵』の松ぼっくり。

【左の呪文】「a detailed watercolor illustration of a slice of apple pie on a white plate, coffee in white coffee cup, on the table, sunshine through the window, by Andrew Wyeth」
【右の呪文】「a pastel painting of a basket full of bread rolls, on checkered tablecloth, light from the bright window, by Andrew Wyeth 」

パンを作る男の子&カップケーキを食べる女の子

 動きのある人物も画風をシンプルにすると、クリーチャー出現率がすこし低くなったような気がするわ。
 左は「パンを作る少年、サンリオ風」。「サンリオ」呪文がAIに通じるか分からなかったけど、ちゃんとサンリオキャラ風の少年がやってきたよ!。AI、リコーダーは知らなくとも、サンリオは知ってるのね(´・ω・`)。
 右は「カップケーキを食べる女の子、不思議な国アリスのティータイム風」。
 実は両方とも、不自然なところ、気に入らないところをフォトショップでお直ししてます。このくらいシンプルな絵なら、私にも修正もできる(^^)。web素材としても使えそう。

【左の呪文】「a illustration of a boy making bread in the kitchen, wearing chef hat and chef coat, in the style of Sanrio」
【右の呪文】「a beautiful color illustration of a little girl in frilly apron eating a cupcake, long hair, half up hairstyle, background of flowers, fantasy magical world, like tea time of Alice in wonderland, gentle atmosphere, by Mary Blair 」

映画

 AIが一番得意なのが風景。無理のない呪文なら、人物のように、デッサンが大きく狂った画像は、ほぼほぼ出てきません。あとは自分の狙いと好みに合うかどうか。

 下の4枚は、私が最近見た映画と、見たいな~と思ってる映画の風景を生成してもらいました。さて何の映画でしょう?。全問正解者には、素敵な賞品をプレゼントします(嘘)。微妙に、本物とは違う絵を出してくるのよね…。でもその映画作品の雰囲気はあるし、使える画像ではある。

【左上の呪文】「a watercolor painting of port town in parked a red Saab900, transparent light color painting, delicate brushwork, spring sunlight, longshot angle, like a movie scene, Drive My Car」
【右上の呪文】「a watercolor painting of Gloucester fishing port on a cloudy day, in back view of 18 year old girl in gray sweatshirt, long wavy hair tied back in a single bun, in waist shot, like a scene of the movie」
【左下の呪文】「a townscape of Kawasaki in 1960s, a line of smoke rise up from the incinerator chimney in the distance, aerial view, detailed, taken on black and white film, by Akira Kurosawa」
【右下の呪文】「a digital painting concept art of Dune, planet of the sand, cinematic atmosphere, by greg rutkowski, 4k, 8k,high resolution」

まとめ

 「Stable Diffusion Demo」の画像生成能力だけど、今回分かったことは、AIが認識してないものは何をやっても画像にできない、人物を描くのは苦手、静物や風景、架空世界はめっちゃ得意。
 付けくわえておくと、人物に関してはバストアップ・ウェストアップのポートレート、後ろ姿なら成功率比較的高めです。アイキャッチに使った画像は、「1910年代のアメリカの女優の油彩画、バストアップのポートレート」の呪文で出てきたもの。人物の全体像、ポーズや動きが加わるほど、顔も、手足のバランスも崩壊していく感じ。

 いろいろやってみたけど、私にはまだちょっと使いこなせないかな~。欲しい画像に近づけれるためには呪文を何度も試しては修正しなきゃいけない、画像生成時間も長い、なかなかピンとくる画像が生成されない等々。このブログで使う程度の素材だったら、フリー素材を探した方がいいかなって感じ。魅力的で面白いツールだし、たまには使うかもしれないけど…。呪文が日本語OKとか、この画像にはこの呪文!みたいな呪文辞典が出るとか、もっと使いやすくなったらいいのになぁ。

おまけ 

 私の呪文レベルでは「 Stable Diffusion Demo 」の性能をお伝えできなので、参考までに、公開呪文(ポン吉のブログ「Stable Diffusion「呪文詠唱」パターン集!見習い召喚士必見!」)をコピペして作成したものを上げておきますね。同じ呪文でも違う画像が生成されるし、欲しい画像のテイストの呪文が手に入るなら、自分好みにちょっと呪文を変えたりしながら利用してもいいかも。

 

 

フォローする