OpenAIは2025年12月11日、最新のモデル「GPT‑5.2」シリーズを発表した。GPT‑5.2は専門的な知識労働や長時間稼働するエージェント用途においてこれまでのモデルを上回る性能を示しており、特に実際の業務タスク遂行能力を評価する「GDPval」の7割の指標で人間の専門家と同等以上の水準に到達していることを報告している。
モデルは、高速に動作し汎用的に利用できる「GPT‑5.2 Instant」 、構造化された詳細な応答を必要とする作業に向く「GPT‑5.2 Thinking」 、非常に難易度の高い質問や品質を優先する場合の利用に適した「GPT‑5.2 Pro」の3つが提供される。なお、GPT-5.2が持っている知識は2025年8月末までのものであり 、コンテキストウィンドウは最大40万トークン、出力は最大12.8万トークンまで対応する。なお、GPT‑5.2のトークン単価はGPT‑5.1より高いものの、トークン効率の向上により、一定の品質レベルを達成するための総コストはむしろ低くなる場合があるという。
GPT‑5.2 Thinkingは、多数のベンチマークにおいて他モデルを上回る性能を達成していることを報告している。特に、実際の業務タスクを評価する「GDPval 」の70.9%において、人間の専門家と同等以上の結果を示したという。またツール呼び出しの評価において、応答速度が重要な場合にreasoning.effort をnoneに設定した場合でも、GPT‑5.2 ThinkingがGPT‑5.1やGPT‑4.1を上回る性能を示したことが言及されている。
GPT‑5.2 Thinkingでは、スプレッドシートやスライドの書式設定が向上していることも確認されている。ChatGPTの有料プランでは、GPT‑5.2 Thinking/Proを選択することで、財務モデルなどの実務的なスプレッドシートや、説明用スライドをChatGPT上から直接生成して活用できる(複雑な生成は数分単位の時間を要する場合がある) 。
科学研究や高度な数学タスクにおいては別途公開したブログ「Advancing science and math with GPT-5.2 」において、GPT‑5.2 ProおよびGPT‑5.2 Thinkingを「科学・数学分野におけるこれまでで最も強力なモデル」と位置づけるとともに、最尤推定量(手元のデータを最も効率よく説明できる統計モデルのパラメータを特定する手法)における学習曲線の単調性に関する未解決問題の一部で、GPT‑5.2 Proが提示した証明案を人間の研究者が慎重に検証することで解決に至った事例を紹介している。ただし、GPT‑5.2のようなフロンティアモデルは「独立した研究者」ではなく、誤りや暗黙の前提を含み得る出力を専門家が検証・文脈付けをおこなうことが依然として不可欠であることも強調している。
コーディングタスクにおいては、GPT‑5.2(特にThinking)は汎用モデルでありながら、幅広いコーディングやエージェント的タスク向けのフラッグシップモデルとして位置づけられている。一方で、GPT‑5.1‑Codex‑MaxはCodexやCodexライクなエージェント型コーディングタスク向けに最適化された専用エンジンとして案内されており、これらの環境では引き続き主力モデルとされている。Codex環境においてもGPT‑5.2はそのまま有用に動作するとしており、今後数週間以内にGPT‑5.2をベースにしたCodex用の最適化モデルをリリースする予定。
GPT‑5.2 Prompting Guide によると、GPT‑5.2は、GPT‑5/5.1と比べて計画や中間構造を自ら組み立てる「足場づくり」の能力向上と、冗長性を抑えた出力を行う傾向がある一方で、スコープや冗長度、出力フォーマットに関する明確な指示に敏感になっているという。また、企業向けエージェントやツールを多用するワークフローにおいて、信頼性、評価のしやすさ、一貫した挙動を重視する設計がなされており、プロンプト内でスコープの上限や更新頻度、ユーザーへの進捗報告スタイルなどをきちんと規定することを推奨している。
プロンプトの設計としては、次のことを意識すると良いという。
出力の長さと構造の制御:回答の文章量や箇条書きの度合い、見出し構成をあらかじめ明示する。シンプルな問いには短く、複雑なタスクには「概要・変更点・リスク・次のステップ」などの形式を指定する。
スコープ変更時の抑制:フロントエンド実装などで、追加する機能やデザインに関して「盛り込み」を避けるために、「 要求された機能だけを、既存デザインシステムに厳密に従って実装する」といったかたちで明示する。
長文コンテキストへの対応:1万トークンなどの長文入力では、まず内部用のアウトラインを組み立て、ユーザーが指定した前提条件を明示的に再確認した上で回答するよう指示し、重要な主張には元テキストの節名などを紐づける。
曖昧さと幻覚リスクへの対処:曖昧な問いや最新情報が必要な問いに対しては、曖昧さを指摘する確認の質問を投げるか、前提条件をラベル付きで列挙した上で回答するよう指示し、「 確信が持てない数値や詳細を捏造しない」「 根拠が不十分な場合は前提を明示する」といった注意書きを含める。また法務・金融・コンプライアンス・安全関連などリスクの高い領域では、回答を返す前に「自分の回答を簡単に再点検し、根拠の薄い主張や過度に断定的な表現がないかを確認する」といった手順を追加する。
またエージェント的な利用における「進捗報告」と「ツール呼び出し」においても、次のような設計例を挙げている。
進捗報告は、「 新しいフェーズに入るとき」や「計画を変える発見があったとき」に限り、1〜2文の短い更新として行うように指示する。その際、「 何を見つけたか」「 何を更新したか」など具体的な成果を少なくとも1つ含めることを求める。
ツール利用では、「 新しいデータやユーザー固有の情報が必要なときは内部知識よりツールを優先する」「 読み取り系のツール呼び出しは可能な限り並列化する」「 書き込み系のツール呼び出しの後には、何をどこに変更したかを短く再説明させる」といったルールを明示する。
PDFやオフィス文書からの構造化抽出では、「 厳密なJSONスキーマを提示し、存在しないフィールドはnullにする」「 ドキュメントごとの結果を分離し、ID(ファイル名やページ範囲など)を付与する」といった指示を与える。
APIでは、GPT-5.2の各モデルが、gpt-5.2-chat-latest (Instant) 、gpt-5.2 (Thinking) 、gpt-5.2-pro (Pro)の名前で利用可能となっている。応答前に内部でどの程度の「思考トークン」を生成するかを制御するreasoning.effort は、none, low, medium, high, xhighの5段階が用意される。GPT‑5.2のデフォルトはnoneで、まずはnoneのまま導入し、必要に応じてmediumなどへ段階的に引き上げることを推奨している。また、reasoning.effort がnoneである場合に限り、従来の制御パラメータ(temperature、top_p 、logprobs)を使えるが、reasoning.effort 自体やtext.verbosity 、max_output_tokens などを用いて挙動を調整することを推奨している。
安全性については、特にメンタルヘルス関連で「自殺や自傷行為の示唆」「 メンタルヘルス上の苦痛」「 モデルへの過度な情緒的依存」といったプロンプトに関しての応答強化が図られている。また既存のペアレンタルコントロールに加えて、18歳未満のユーザーに対して自動的にコンテンツ保護を適用するための「年齢推定モデル」の初期展開を進めている。安全性に関する詳細はSystem Card も参照のこと。なお、サイバーセキュリティに関する評価についてgpt‑5.2‑thinkingがgpt‑5‑thinkingよりも大幅に向上しており、一部ではgpt‑5.1‑codex‑maxと同程度の水準に達しているとしつつも、「 High cyber capability」とラベル付けするための社内基準には達していないとの言及もある。
GPT‑5.2の利用は有料プランのユーザーに向けて段階的に提供が開始されている。FreeおよびGoユーザーは明日から利用できる 。なおGPT‑5.1は、有料ユーザー向けに3か月間は「レガシーモデル」として提供が続けられ、その後提供終了する予定。