AIは白い狐の夢を見るか – 画像生成AI（Midjourney、Stable Diffusion、Craiyon）を比較してみる。

英国のAIスタートアップ企業stability.aiは、高性能画像生成AI「Stable Diffusion（ステーブル・ディフュージョン）」と、その利用モデルである「DreamStudio」を商用、非商用問わず無料での使用を許可する形で発表しました。

本年（2022年）夏より人気急上昇中のMidjourney（ミッドジャーニー）とCraiyon（クレヨン）と合わせ、3つの画像生成AIが鼎立することとなりました。

その他にもIT企業最大手のGoogleも画像生成AIであるImagenを開発中ですが、こちらはまだ一般には公開されていません。

Craiyon（旧名：DALL·E mini）のベースとなるDALL·Eは、非営利団体OpenAIによって開発された画像生成AIのさきがけです。

DALL·Eの名称は、シュールレアリスムの画家サルバトール・ダリに由来しています。

Craiyonは性的・暴力的なイメージを除去するためにフィルタリングされた公共データセットからの3,000万枚のキャプション付き画像で学習されています。

DALL・EのContent policyに沿って、「憎悪」「嫌がらせ」「暴力」「自傷行為」「性的なもの」「衝撃的なもの」「違法行為」「虚偽」「公衆衛生および個人の健康」「政治的」「スパム」については、画像生成の際に規制がかかる場合があります。

Midjourneyも同様に「アダルトコンテンツや血みどろの表現は禁止です」「視覚的にショッキングな内容や、不安を煽るような内容のものは避けてください」「一部のテキスト入力は自動的にブロックされます」とCommunity Guidelinesに書かれています。

Stable Diffusionに至っては、なんと56億枚の画像から選出した20億枚（100T）で学習を行っています。

Terms of Useにおいて、ユーザーの投稿に関して下記のような多くの制限を設けています。

「虚偽、または誤解を招くようなもの」「未承諾または無許可の広告、スパム、その他の形態の勧誘」「わいせつ、暴力、嫌がらせ、中傷、その他好ましくないもの」「誰かを嘲り、あざけり、軽蔑し、脅迫し、または虐待するもの」「第三者のプライバシーまたはパブリシティ権を侵害したもの」「児童ポルノに関する適用法に違反するもの」「人種、国籍、性別、性的嗜好、身体的ハンディキャップに関連する攻撃的なコメントを含むもの」など。

しかしながら、画像生成AIの中では最も規制がゆるいのか、著名人の顔やキャラクターをそのまま使う傾向が強くなっています。

近年、本物と見間違うようなフェイク画像や動画が社会問題となっており、画像生成AIが高度化するに従って何らかの規制が必要となることでしょう。

今回の記事では、この3つの画像生成AIに同じプロンプト（指示文）「White fox is running in Kabukicho city（歌舞伎町を走る白狐）」を与え、生成画像を比較してみました。

最近はAIへのプロンプトのことを「呪文」というユーザが増えて、SNSでも画像生成AIの話題がにぎやかになっていますね。

1 Craiyon（旧名：DALL·E mini）
2 DreamStudio Lite（Stable Diffusion）
3 Midjourney

Craiyon（旧名：DALL·E mini）

9分割されたグリッドの中に白い狐とネオン街の夜景が現れました。

いずれも同じモチーフで、バリエーションが9種類の画像を生成しています。

Craiyon（旧名：DALL·E mini）

登録不要・無料

DreamStudio Lite（Stable Diffusion）

デフォルトでは1画面ですが、他のAIと比較しやすいよう512✕512pxサイズにて4分割で画像生成してみました。

背景に歌舞伎町一番街の入り口らしき建物が見られ、Craiyonに比べるとリアルな風景になっています。

白狐の手足の数などおかしい個所もありますが、これは他の画像生成AIでも見られる現象です。

DreamStudio Lite（Stable Diffusion）

メールアドレスにてユーザ登録が必要。
登録が済むと£2（英ポンド：約323円）分の200クレジットが付いており、無料で200枚程度の画像生成ができます。追加使用の場合は£10（英ポンド：約1,614円）単位で支払いできます。

Stable Diffusionは、ユーザのローカル環境でも利用できるスペックが公開されています。お使いのPCにインストールすれば使用量は無料となります。

現時点（2022年9月）においてはβ版ですが、将来的にDreamStudio Pro（Video／Audio）と Enterprise（Studios）が予定されています。

Midjourney

Midjourneyのデフォルトでは、512✕512pxサイズの中に4分割で画像生成されます。

最初の画像生成の段階ではかなりイラストっぽく、奇妙な融合体が現れることが多いようです。

左上の顔のアップ画像を［V1ボタン］を押してバリエーションを追加生成してみました。

今度は凛々しい顔立ちの白狐が4種類生成されてきました。

背景の街並みのボケ具合もいい感じです。

Midjourneyの生成する画像は他のAIに比べると、かなり芸術的な仕上がりです。

「octane render」「unreal engine 5」「hyperrealistic」「cinematic lighting」「highly detailed」などのプロンプトを追加すると、一気に精緻な画像が生成されるようになります。

「Cyberpunk」「Steampunk」「Nightmare」などのプロンプトを使った独特のリアルな世界観はMidjourneyが一歩先を進んでいますね。

さらにこの白狐の顔画像を利用し、タイトル画像を作ってみます。

白狐の顔画像はすでにDiscordのサーバ（https://s.mj.run/LMUKQ9MySVs）に保存されているので、このURLをプロンプトの文頭にペーストします。

その後に「a White fox look likes Queen, Gorgeous Dresses and tiara, in Kabukicho, photo realistic, high detailed, Octan render, Cinematic lighting, –ar 2:1」と呪文を唱えてみました。

そして生成されたのが下記の画像です。ぱっと見はこれでもよくできているのですが、肩のラインなどややバランス悪いのが気になります。