OpenAI、GPT-4oに組み込まれた画像生成機能を提供開始 ——画像内テキストの指定・一貫した画像の複数回出力が可能に

OpenAIは3月25日、GPT‑4oに組み込まれたより実用的な画像生成機能がChatGPTとSoraで展開しはじめたことを発表した。これにより、情報の共有や視覚的コミュニケーションにおいてより実用的な画像を作成したり、一貫性を保ったまま画像を複数回生成できるようになった。

Introducing 4o Image Generation

4o image generation has arrived.

It's beginning to roll out today in ChatGPT and Sora to all Plus, Pro, Team, and Free users. pic.twitter.com/pFXDzKhh2t
— OpenAI (@OpenAI) March 25, 2025

今回、オンライン画像とテキストの同時分布に基づいてモデルを訓練し、画像と言語の関係だけでなく、画像同士の関係を学習したという。そしてPost-trainingと組み合わせることで、画像生成において次のことをおこなえるようになった。

テキストレンダリング：生成する画像内のテキスト（文章）を指定できる。
マルチターン生成: 一貫性を保った複数のバージョンの画像を生成できる。
精度向上：細部に注意をはらった詳細なプロンプト（指示）に従う。最大10から20個の異なるオブジェクトを処理できる。オブジェクトをその特性や関係に密接に結び付けると、より適切に制御できる。
文脈学習: アップロードされた画像を分析し、その文脈を画像生成に反映できる。
GPT-4oの知識の活用: ネイティブな画像生成において、GPT-4oの持っている知識を活用できる。
写真的写実主義とスタイル：さまざまな画像スタイルを反映した画像で訓練されたことで、より説得力のある画像を生成できる。

なお現時点で、次の制限があることにも言及している。

切り取り：ポスターなどの長い画像の生成において、特に下部がときどき切り取られる。
幻覚（ハルシネーション）：他のテキストモデルと同様に、特に低コンテキストなプロンプトでは、情報が作り出されることがある。
高結合問題：知識ベースに依存する画像（たとえば完全な周期表）を生成する場合、10～20を超える異なる概念を一度に正確にレンダリングするのが難しい。
正確なグラフ作成
多言語のテキストレンダリング：ラテン語以外の言語のレンダリング能力が低い。特に複雑な場合は、テキストが不正確または幻覚的になることがある。
編集精度：誤植など、画像生成の特定の部分を編集する指示が常に効果的であるとは限らない。それにより指示以外の部分で画像の他の部分を変更したり、エラーを増やしたりする可能性がある（現在、モデルの編集精度を向上させる作業を行っているという。なお、アップロードした画像の顔の編集の一貫性を維持しにくいバグがあり、これは1週間以内に修正予定とのこと⁠）⁠。
短いテキストによる高密度情報：非常に短いテキストで詳細情報をレンダリングするように指示すると、問題が発生する。

生成された画像にはC2PAメタデータが付加され、GPT-4oを用いて生成されたことを識別されるようになっている。また、生成される画像の安全性にも引き続き配慮されていて、それについての詳細はGPT-4oシステムカードの付則：画像生成を参照のこと。

今回のモデルを使った画像生成は多くの場合、最大1分かかるという。なお、アスペクト比、16進コードを使用した正確な色、透明な背景なども指示できる。

このGPT-4oを使った画像生成のAPIは数週間以内に提供予定。