本記事ではOpenAIからリリースされたGPT-Image-2について解説します。

0. 概要

GPT-Image-2はOpenAIによってリリースされた最新の画像生成モデルです。簡潔に評価すれば現在の画像生成市場の最上級モデルであり、OpenAIの本気が見える完成度です。主な特徴は生成前に構図や文字配置を考えるThinking modeの実装、Web検索を用いた情報の参照、ほぼ完璧なテキストレンダリングですが、GPT-Image-2の真価は特徴の列挙だけでは測れません。GPT-Image-2は競合のNano Banana 2と比較にならないレベルでの完成度を誇ります。

1. 前モデルを振り返る

本題に入る前に、GPT-Image-2の以前のモデルを振り返りましょう。GPT-Image-2の直接の先代はGPT-Image-1.5です。しかし、このモデルはほとんど話題になりませんでした。フラットに評価すれば決して悪いモデルではありませんでしたが、Nano Bananaほどのキャッチーな使い方やパッと見ですごいと思わせるポイントが無かったことが原因でしょう。

GPT-Imageシリーズの前身はDALL-Eです。個人的には私が画像生成を始めたきっかけがDALL-Eなので思い入れのあるシリーズですが、DALL-Eシリーズの当時の価値は画像生成そのものでした。OpenAIの本業がLLMであるというのは完全に正しい主張ですが、画像生成の歴史の中でOpenAIのDALL-Eは無視できない存在です。

2. GPT-Image-2の特長

GPT-Image-2の特長は先に挙げた通りThinking modeやWeb上の情報参照、テキストレンダリングなどですが、実際の出力は遥かに革新的です。実際、それらの特徴は他社の競合モデルでも挙げられる内容ですが、GPT-Image-2はそれらとは一線を画す完成度を誇ります。あれこれ言葉を尽くすのは解説者の責務かも知れませんが、とにかくGPT-Image-2のポイントは実際の生成画像を見るのが最も手っ取り早いでしょう。

これはGPT-Image-2で生成された画像です。生成されたそのままの状態で、追加の編集は一切行っていません。このクオリティの画像を簡単に量産できるのですから、GPT-Image-2がいかに革新的なモデルなのかが分かるでしょう。要するに、先に挙げた特長はこの品質を担保するために必要な要素にすぎず、真に意味があるのはGPT-Image-2の圧倒的な品質だということです。

3. パフォーマンステスト

ではGPT-Image-2はどれほど凄いモデルなのか、本節ではパフォーマンステストを実行します。

まず、Lamborghini Revueltoの宣材画像を生成してみました。かなり正確に捉えられています。粗探しをすればキリがありませんが、そもそも粗探しをされるようなレベルの画像を生成されていること自体がポイントです。

続いて台湾の九份の夜景写真です。AI生成画像にしては若干暗めな気もしますが、写真としては十分な仕上がりです。行ってみたい。

夜景でなくともGPT-Image-2の写真は良い意味で現実的です。これはモルディブのホテルの画像ですが、HiDreamのような現実離れした派手さはありません。とは言えそれは美しさを損なうという意味ではなく、写実性を維持したままで考えられるベストショットが提供されるということです。

少し意地悪をしてテキストレンダリングの限界を測ってみました。GPT-Image-2は非常に正確であり、もはや仕事で資料を律義に作るのが馬鹿馬鹿しくなってきます。注目すべきポイントは、私のプロンプトには≈40%などの数値は入っていないということです。私はただSelectorate theoryに関する少しの情報を与えただけですが、GPT-Image-2はそこからおそらくThinking modeを用いて実際の割合を推定したのでしょう。確かに、この割合はある程度妥当です。

アニメ系の画像においてもGPT-Image-2は圧倒的です。架空のゲームの架空の新キャラでも、それっぽい画像を生成できます。入力画像の解釈が優れており、これはThinking modeの恩恵でしょう。

とは言え最低限の良心は残っているのか、適当に指示しただけでは人を騙すような画像は作れません。「株で大儲けするノウハウを提供します！」のような情弱ビジネスにGPT-Image-2を使うのは多少のテクニックが必要そうです。

4. 競合との比較

本節ではGPT-Image-2を競合モデルと比較します。まず、画像生成モデル全体と比較して、GPT-Image-2は現在トップのモデルです。Arena.aiのリーダーボードでは、記事執筆時点でText-to-imageにおいて2位のNano Banana 2に230ポイントの大差をつけて1位に君臨しています。Image EditではNano Banana 2と100ポイント差ですが、1位を維持しています。

直線的な競合になるのはNano Banana 2ですが、GPT-Image-2との違いは画像編集機能です。GPT-Image-2でも画像編集機能は使用可能ですが、どちらかというとGPTは入力された画像を参照に使う傾向が強く、もとの画像を維持するような編集においてはNano Banana 2が依然として優勢です。それ以外ではGPT-Image-2が圧倒的です。

GPT-Image-2と同様にチャット統合型のGrok Imagineもまた強力なモデルです。しかしこちらは画像の品質よりも生成速度や様々な「抜け道」があることが強みです。GPT-Image-2のような仕事向けの使い方には弱く、あくまで個人向けです。それでもコンシューマー市場でのChat GPTのシェアが高い事を考えると、GPT-Image-2にとってGrok Imagineは最早競合ではないのかもしれません。

競合の中で唯一ローカル動作するFlux.2は有効な競合になります。フォトリアルではGPT-Image-2を超える品質を出力できる可能性のあるモデルであり、ファインチューニングが可能であることからも用途によってはFlux.2が優れる場合があります。GPT-Image-2はシンプルなプロンプトから高品質な画像を生成するのに対してFlux.2はVLMを統合しているためか詳細なプロンプトで本領を発揮します。

5. コスト

気になるのはAPIコストですが、GPT-Image-2はトークン課金制ですから従来のモデルと単純には比較できません。しかし、いくつかの試算によるとGPT-Image-2のコストは比較的高額で、特に参照画像を入力した場合に高くなるようです。とは言え動画モデルにおけるVeoのような法外なコストを課されるわけではないので、エンタープライズ向けでも十分に使われるでしょう。

個人クリエイターにとっては各プラットフォームでの価格が重要ですが、特にSeaArtにおいては競合よりも多少高額な程度です。具体的には、純粋なText-to-imageにおいてGPT-Image-2は98コスト、Nano Banana 2は115コスト、Seedream 5.0は65コストです。Nano Banana 2の方が高額なんですね。画像を入力した場合はGPT-Image-2が150コストに上がります。パフォーマンスが圧倒的であることを考えると、この価格設定はだいぶ良心的です。

6. まとめ

本記事ではGPT-Image-2についてご紹介し、パフォーマンステストと競合との比較を掲載しました。GPT-Image-2は非常に革新的なモデルですので、是非お試しください。

【本気】GPT-Image-2 解説