[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

このページの本文へ

前へ 1 2 3 4 次へ

新清士の「メタバース・プレゼンス」 第76回

「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」

2024年08月19日 07時00分更新

文● 新清士 編集●ASCII

激しく争う二人の女剣士(筆者がFlux.1 [dev]で作成)

 ドイツのスタートアップ「Black Forest Labs(BFL)」が、8月1日(現地時間)に画像生成AI「FLUX.1」を発表しました。Stability AIの最新モデル「Stable Diffusion 3(SD3)」を超える性能をアピールしており、開発者はStability AIの出身者たち。Stable Diffusionのビジネスモデル設計の失敗から学んだ新しい提案方法でのプランの提示、さらには、14日には、X(旧Twitter)のAI機能の「Grok」の画像生成機能として搭載されました。Stability AIにとってはかつてないほどに強力なライバルが出現した格好で、画像生成AIの勢力図が塗り変わろうとしています。

いきなり約45億円の資金を調達した大型AIスタートアップ

Black Forest Labの公式ページ

 Black Forest Labが、シード投資でいきなり3100万ドル(約45億円)相当の資金を調達しているのも驚きです。出資者には、IT系ベンチャーキャピタル名門のアンドリーセン・ホロウィッツ(a16z)が入っていました。AI分野にも積極的に投資していることで知られており、有名なところではAIプラットフォームのCivitaiに出資していました。しかし、Stablity AIといった画像生成AIの基幹技術そのものを持っている企業には出資している様子はありませんでした。BFLへの投資を通じてその部分も押さえられるという目論見があったのでしょう。

 3100万ドルは、シード投資の調達額としては大きな額と言えますが、とてつもなく大きいわけではありません。同じAIスタートアップでは、OpenAIがAIの開発費に全体で年間70億ドル(1兆円)を使っていたり、生成動画AIのPikaが、2023年11月に5500万ドル(約82億円)をシード調達したといった例もあります。また、Stability AIが2年前に開発した「Stable Diffusion v1.4」には60万ドル(約9000万円)の学習コストがかかっていることも明らかにされているため、Flux.1の開発費はそれから10~20倍以上の費用がかかっている可能性があります。それでも、逆に言えば、SD3と同等の最先端の画像生成AIの基盤モデルであっても、後発のスタートアップでも手が届くコスト感で学習できてしまうとも言えます。

 FLUX.1は、SD3と似たようなライセンスモデルを採用しています。3種類のバージョンを用意し、法人向けの上位モデルからお金を取るようなビジネスモデルです。

 まず、法人向けに設定されている最上位モデルが「pro」。学習済みモデルそのものは公開しておらず、APIを通じてのみ利用できるモデルです。使用料は、1枚の画像の生成につき0.055ドル(約8.25円)に設定されています。このproのデータを蒸留して、効率化がなされたのが「dev」。ウェイトモデルも公開されており、非商用であれば自由に使えます。そして最もゆるいライセンスで誰でもが自由に使える「schnell(シュネル・ドイツ語でFastの意味)」です。

 BFLは、「ELOスコア」評価において、FLUX.1ファミリーが既存の画像生成AIモデルと同等か優れていると発表しています。ELOスコアは異なる画像生成AIを比べるために調査会社が実施している評価で、同じプロンプトを入力したときに出力された成果物を、人間が判断することで優劣を競います。この結果、proモデルとdevモデルのいずれも、最高品質の「Stable Diffusion 3 Ultra」を上回り、schnellモデルも「Midjouney v6.0」や「Dall・E 3」に匹敵する性能と評価されたとしています。0.1Mピクセルから2Mピクセルまでの幅広い解像度とアスペクト比に対応しており、将来的には動画生成もリリースするとしています。

 技術的な情報が論文などの形で発表されていないので、どのような学習データをどのくらい使い、どのような手法で画像を生成しているのかといった詳細はほとんどわからないのですが、ソースコードを解析したRedditユーザーの分析によると、かなりStable Diffusion 3に似た構成で処理をしていると報告されています。長文プロンプトを解析するための言語モデルとしてグーグルの「FLAN-T5 XXL」が使われているところも似ています。ただ、生成された結果はSD3ともかなり異なっているため、ウェイトモデル自体はゼロから開発されたのではないかと推測できます。

前へ 1 2 3 4 次へ

カテゴリートップへ

この連載の記事
ピックアップ