第6回 -フラグメント研究から見えてきた本当に意味をなす単語とは-

AIイラスト

本当に必要な単語ですか?

最近ネガティブプロンプトについて考えていました。

その中で疑問に思ったのは、

 

「本当にこの単語って必要なのだろうか?」

 

ということです。

 

もちろん、ほとんどが入力する必要があると思いますし、
全く無意味な単語などありません。

ここで言う「不必要な単語」とは、

 

「目的のイラストを生成するにあたって不必要な単語」

 

のことを指します。

 

このように思ったきっかけは先述したようにネガティブプロンプト(今後”NP”とします。)
なのですが、更に「フラグメント研究」を進める過程でこの疑念は大きくなっていきました。

一体、「フラグメント」とはなんなのか。
一つずつ解説していきながら、不必要な単語がないか考察していきます。

 

フラグメントとは

我々は、AIが認識する単語としての最小単位を”token”と呼んでいます。

例えば、次のようなプロンプトがあるとします。

 

girl, blonde hair, beautiful red eyes

 

この場合、“girl”, “blonde”, “hair”, “red”, “eyes”の5tokensとなります。

しかし、一見1tokenに見えてもそうでない単語も存在します。

 

loli, 3D

 

実はこの単語、どちらも2tokensで生成されています。(合計で4tokensです。)

CLIP Tokenizerによると、”lol”, “i”, “3”, “D”といった構成です。

 

ここで、これらの「tokenではあるけれど、一般的に1単語とは呼べないもの」をフラグメント」と呼ぶことにしました。(※名付け親は私ではありません。)

 

つまり、これらの「フラグメント自体が持つ意味」と「フラグメント同士の結びつき」が非常に重要となりますが、これらはまだ検証中なのでまとまったら解説記事を作りたいと思います。

 

NPによって単語が持つ意味を検証

注意点として、ここで言う「単語の意味」とは、「AIが読み取る意味」を指します。
一般的な単語の意味として捉えないように気を付けてください。

まず、今回使うプロンプトと環境を紹介します。

 

ima

Steps:35, Sampler:LMS, 512×768, Scale:16, Seed:339349099

 

この”ima”は、私が好きなフラグメントで「SFミリタリーチックな女の子」を出力してくれます。
実際のイラストはこんな感じです。

 

NPなしでこのクオリティは流石に「いいの見つけたぜ!」という感じです。笑

このプロンプトに対してNPへ順に単語を入れていきます。

 

今回は出力結果だけを羅列していきます。

理由は、言語化することが困難であること、最終的に使用するかどうかは個々人の判断が大切であることからです。

 

3D

 

我々が思う”3D”よりも多くの要素を含んでいる気がします。

 

realistic

 

アイコンチックになるのは可愛いですね。

フラグメント1つの影響度合いがかなり小さいというのもありますが、あらためてNPの影響度の強さが伺えます。

NPをうまく操れれば、PPに単語を入れるよりよっぽど効率的なのですが、これがなかなか難しいですね。

 

nsfw

 

元々そういうイラストでなかったため効力が掴みにくいですが、リアルさが減るという方向に働くんですね。

ちなみにこれは1tokenで、”NSFW”としても変わりません。

 

ugly

 

huge eyes

 

text

 

logo

 

monochrome

 

long body

 

worst face

 

worst hands

 

bad anatomy

 

worst quality

 

この単語天才すぎる

 

ほとんど元イラストの崩れがなく、クオリティを上げてくれています。

非常に「純度」が高い単語ということだと思います。
フラグメントのような儚い存在を崩さないとは…

 

スタープラチナかよ!!

 

スタープラチナの精密性かよ!!(※筆者は興奮しています。)

 

今のところ汎用的に使えるのはこの単語くらいでしょう。

 

low quality

 

さっきより純度が高い!!

色味までほぼ崩れてないですね。

 

しかし、こう比較すると
AIが「どこをlow qualityと見ているか」が読み取れそうで面白いです。

blurry

 

「ぼやける」反対をこう捉えているのは面白いですね。

 

huge breasts

 

ちなみに”big breasts”も試してみましたが、あまり影響に違いはなかったです。

ただ、“huge”や”worst”などの程度が大きい単語の方が、PPからの歪みは大きいです。

これは、「あまりにも大きいものだけを否定しよう」という意図のはずが「あまりにも大きいものを含む範囲すべてを否定しよう」とAIが捉えてしまっているような気がします。

離散的にとらえてはいけないということかもしれないです。

 

いつもこの連続性の話題になると「アナログ」と「デジタル」が持つ意味の違和感を感じます。笑

 

horror

そんなに元のイラストに”horror”要素あったんかい笑

これは推測ですが、多少赤味を消す方法に働くんでしょうね。

 

geometry

 

ts*ina (白髪系のフラグメント)

 

フラグメントの良い点は、
「作用する箇所だけ理解しておけばピンポイントで打ち消せる」ことです。

ちなみに色の否定は大体補色の方向へ流れる感覚があります。

今回は白髪を否定したので黒髪になっています。

他の服などは色があまり変わってないですよね。

 

ちなみに“white hair”とNPに入力するとこんな感じです。

 

私がフラグメント研究を進めている理由が少しでもこのイラストから伝わればと思います、、、笑

 

 

まとめ

いかがでしたでしょうか?

意外とNPってきちんと評価したことがある方はいないのではないでしょうか?

 

大体の単語は多くの意味を含んでいるので、ピンポイントである部位を否定するのは困難です。

 

汎用NPは”low quality”でどうでしょうかという結果になりました。笑

 

 

 

 

最後に、最近のAI研究の流れについて私が思うことを。
(読まなくても全然OKです!)

 

AIイラストの界隈は、多くの方が熱心に研究をしているコミュニティで本当に”すごいな”というのが最初に感じた感想です。

しかし、当然その中には「研究結果だけが欲しい」という方もいらっしゃると思います。

その姿勢に対して全くマイナスのイメージは持っていません。

むしろ、ほとんどの方がそうなのではないかと思っているくらいです。

 

私が懸念しているのは、「情報が広まれば広まるほど、その本質を見落とす方が増えること」です。

これはAIイラストに限った話ではないですが、私のようなプロンプトを含めて色々検証している身としては、まず第一に目的があって検証をしています。

そして、その目的というのは100%言語化して伝えることが難しいということです。
(同じ志をもっているもの同士は、逆に言葉が少なくても何故かスタンド使いのように通じ合うのですが。不思議です笑)

 

一番わかりやすい私の目的は「イラストに忠実に反映されつつ効率性も兼ね備えたプロンプトを探す」ことです。

それは、無意味に見えるtokenを差し込むことや、今回のフラグメント研究につながっているのです。

しかし結果だけを見ていると、
「なんか魔法のようなおもしろそうなことをしている!!」とだけ捉えられがちなわけです。

 

こうなることで私が心配している実害としては、
「真似をしたことで思ったようなイラストが生成されなくなる」ことです。

そこから、意味を見出して自力で解決しようとする方がこの界隈にはほとんどだと信じているのですが、中にはそうではない人もいらっしゃると思います。(小難しい内容ですしね。)

そうすると、「うまく”いい感じ”のイラストが生成されると思っていたのに変なものしか出力されない!」といったような事態に陥ると思います。

特に最近の内容はかなり「絶妙なきわどいバランス」で成り立っているので、少しでも道を逸れてしまうと戻ってこれなくなってしまうのです…

 

結論として。

一つの意見として鵜呑みにはしないこと。
本質や意図を読み取ろうとすること。

が、やはり重要なのではないかと思います。

「プロンプト通りのイラストが生成できなく」なってしまっては、元も子もありません。

 

最近、たまに意図していない方向(かつ少し間違っていそうな…)に話が転がっていっているのを見かけて傍観しているときがあるので、こんな気分の良くない話をしてしまいました。申し訳ないです。

 

記事をわざわざ読んで頂いている方々には、あまり関係のない話だとは思っていますが、いい方向に全体が進んでいってAIイラストの発展が更に進んでいけばよいなと思っています!!

 

それでは。

 

ちなみに”uest”でかっこいい魔王ができるよ。(誰得)

コメント

タイトルとURLをコピーしました