[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
見出し画像

Googleの画像生成AI「Imagen3」(ImageFX)の使用経験

 こんにちは、Browncatです。
 Googleは8月28日、画像生成AIの最新バージョン「Imagen3」をリリースしました。
 Imagen3の画像を生成するための同社の画像生成AIサービスが「ImageFX」ですが、このImageFXをしばらく試用しましたので報告します。


Imagen3概要

 Imagen3の概要は、Googleの以下のサイト

によれば、

  • 以前のモデルに比べプロンプト理解力が大幅に向上。自然な日常言語で書かれたプロンプトも理解するため、複雑なプロンプト・エンジニアリングを行わなくても、必要な出力を簡単に得ることができる

  • 照明と構成が適切で、視覚的に豊かで高品質の画像を生成

  • テキストレンダリング機能の大幅な改善

  • データセット内の有害なコンテンツを最小限に抑え、有害な出力の可能性を減らすために、広範なフィルタリングとデータラベル付けを使用

  • Gemini app and web experience, ImageFX あるいは Vertex AI 経由で利用可能

 上記サイトにリンクされている「技術レポート」には、自他社のモデル(DALL-E 3、SD3、Midjourney 6、SDXL、Imagen2)との、嗜好、プロンプトと画像の整合性、視覚上のアピールを指標としたベンチマークが掲載されており、多くの場合Imagen3が他に比べ優れているとされています。

Imagen3とImageFX

 先述の通り、Imagen3の画像を生成するための画像生成AIサービスがImageFXです。
 ImageFXは1日の生成回数に制約があるものの(回数は明示されてはいない)、Googleのアカウントがあれば無料で利用できます。

Imagen3の特質

 Imagen3は非常にフォトリアルな画像が得られます。もちろん最近の他のプラットフォームやモデルでも綺麗なフォトリアル画像は得られますが、Imagen3は本当に現実にいる人物のような表現です。破綻もほぼありません。

Imagen3(ImageFX):遺跡
Imagen3(ImageFX):Spa

 一方、Imagen3は表現規制が強烈なため、プロンプト記述の戦略を他モデルとは根本的に変える必要があります。
 具体的には、まずはなるべく少ない単語数で始め、規制に引っかかるまで、単語を徐々に増やししていくのがお勧めです。
 また、画像サイズは(原稿執筆時点では)ImageFXで生成する場合、1024x1024ピクセルの正方形に限られます。ほかのアスペクト比にも対応してほしいところです。

生成例

1.赤いドレスを着た女性

 最近のモデル・プラットフォームで、なるべく同一のプロンプトで生成して比較してみました。
 ImageFXで生成する画像サイズが1024x1024ピクセルの正方形に限定されるため、比較画像も同じアスペクト比としました。断りない場合、Imagen3と全く同一のプロンプトです。

【Imagen3(ImageFX)】

Imagen3(ImageFX):赤いドレスを着た女性

 モデルというより、隣の家にいそうな感じの人物像で、単にフォトリアルというだけでなく、背景含め臨場感があふれています。
 
プロンプト:

photo realistic and cinematic, the beautiful Japanese young woman like an idol in red evening dress is posing for photo in the art deco room

【FLUX.1 [dev]】

FLUX.1 [dev]:赤いドレスを着た女性

 Imagen3より大人な感じのモデルのような人物が生成されます。
 FLUX.1を採用しているXのGrok-2も同様です。

【Kolors(Kling)】

 ここでは、画像生成AIサービス「Kling」で生成した画像を紹介します。プロンプトは上2つと同じ。

Kolors(Kling):赤いドレスを着た女性

 人物像はFLUX.1と同様、Imagen3より大人な感じのモデルのような人物が生成されます。また光源の色温度がImagen3より高く出る傾向にあります。

【Midjourney 6.1】

Midjourney 6.1:赤いドレスを着た女性

 以前の記事でも述べましたが、Midjourney 6.1の生成結果はファンタジー系イラストの要素を若干含んでおり、ほぼ写真のように生成されるImagen3とは印象が異なります。

プロンプト:

photo realistic and cinematic, the beautiful Japanese young woman like an idol in red evening dress is posing for photo in the art deco room. shot by Canon EOS R5

【Stable Diffusion 3 (SD3) Large】

Stable Diffusion 3 (SD3) Large:赤いドレスを着た女性

 解剖学的な破綻で有名になってしまったモデルですが、破綻がなければこのように綺麗に出ます。しかしImagen3はとにかく破綻がほぼないので、SD3には早急な改善が望まれます。 

プロンプト:

【Positive】 cinematic photo, the beautiful Japanese young woman like an idol in red evening dress is posing for photo in the art deco room. 35mm photograph, film, bokeh, professional, 4k, highly detailed
【Negative】 drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, (bad anatomy:1.5), bad collapsed arms, bad collapsed hands, Excessive decoration of costumes

【DALL-E 3(Microsoft Image Creator)】
 ここでは、ChatGPT4ではなく、Microsoft Image Creatorのほうで生成しています。

DALL-E 3(Microsoft Image Creator)

 以前からプロンプト理解度が非常に高い一方、フォトリアル系が苦手でした。いまではこの通り、綺麗なフォトリアルな画像を出せますが、リアリティはImagen3には及びません。

2.テキストの出力・カフェ「Browncat」

 最近の画像生成AIモデルはテキストレンダリングがきちんとできるようになっていて、Imagen3もそれを売りのひとつにしています。
 実際、下図のようにプロンプトで指定された文字が店名として反映されています。

Imagen3(ImageFX):カフェ「Browncat」

プロンプト:

a young Japanese woman like an idol in a black and white cleavage maid cosplay with smile is posing In front of a western classical wooden cafe with sign “Browncat” in English.

 なお、テキストレンダリングの検証は、SD3FLUX.1でも行っていますので、それぞれの結果は過去の記事をご覧ください。

他の生成例

 Imagen3の他の生成例を、他のモデルとの比較をせずにいくつか掲載します。
 なお、Xのコミュニティ「ImageFX's Prompt Lab.」にプロンプトを公開した画像については、プロンプトを併記しています。

1「自撮りする二人」

Imagen3(ImageFX):自撮りする二人

2「傘を差す女性」
 傘が全く破綻なく表現されています。

Imagen3(ImageFX):傘を差す女性

3.「制服女子」

Imagen3(ImageFX):制服女子

プロンプト:

a Japanese woman student like an idol in summer white school uniform is posing for photo at the spring with a stream and forest.

4「水着」

Imagen3(ImageFX):水着

プロンプト:

a beautiful Japanese female swimmer like an idol in blue swimming suits posing for photo at the beach.

5「バレエダンサー」

Imagen3(ImageFX):バレエダンサー

6・7「日韓アイドル」
 プロンプト(下記)の国籍を変えただけですが、衣装や髪型・メイクの違いが明確に表れています。

Imagen3(ImageFX):日本のアイドル
Imagen3(ImageFX):韓国のアイドル

プロンプト:

The beautiful Japanese/Korean woman in an idol costume is dancing.

8「画家」

Imagen3(ImageFX):画家

プロンプト:

A Japanese beautiful female artist in leather apron without shirt paints a mural on an outdoor white wall.

9「受賞」

Imagen3(ImageFX):受賞

プロンプト:

a Japanese woman fashion actress like an idol in cleavage dress.

10「夏の終わり」

Imagen3(ImageFX):夏の終わり
まとめ

Googleの画像生成AI「Imagen3」(ImageFX)を試し、フォトリアルな表現能力の高さを確認し、他プラットフォーム・モデルとの比較や、テキストレンダリングの検証もしました。
 以上、長文にお付き合いくださりありがとうございました。

いいなと思ったら応援しよう!