OpenAI｢コード･レッド（緊急事態）｣宣言の深層 最新の《GPT-5.2》が狙う｢賢さ｣から｢稼ぐ力｣への競争軸転換

1/5 PAGES

2/5 PAGES

3/5 PAGES

4/5 PAGES

スタートアップTriple WhaleのCEOの証言が象徴的だ。「GPT-5.2により、脆いマルチエージェントシステムを単一の『メガエージェント』に統合できた。20以上のツールを駆使する巨大なエージェントだが、5.2は魔法のようにうまくこなしてくれる」。システムプロンプトも煩雑な指示を書き連ねる必要がなく、シンプルな指示1行で最後まで実行してくれるようになったという。

これは「タスクの自動化」から「ワークフローの自動化」への移行を意味する。単発の作業を代行するだけでなく、複数のステップを連携させて一つの業務プロセス全体を完遂する。社内問い合わせ対応、データ集計・分析の自動化など、企業内でのAI活用範囲が一段と広がる基盤が整ったと言える。

OpenAIはGPT-5.2を「これまでで最も強力なビジョンモデル」と位置づけている。グラフやUIスクリーンショットの理解精度が前世代の約2倍に向上した。

この進化を象徴するエピソードがある。パソコンのマザーボードの写真を入力して各部品を特定・ラベル付けさせたところ、GPT-5.1が2〜3個しか部品名を挙げられなかったのに対し、GPT-5.2は主要コンポーネントをほぼ網羅し、それぞれのおおよその位置をバウンディングボックスで示すことができた。低解像度画像にもかかわらず、CPUソケット、VRM（電源回路）、各種ポート類まで把握できている。

驚くのはモデルが画像内の空間的な配置関係をより深く理解できるようになった点だ。学術論文中のチャートを読み取って質問に答えるCharXivテストや、種々の業務アプリ画面を解析するScreenSpot-Proで、GPT-5.2 Thinkingはいずれも誤答率を半減させた。

この空間理解の進歩は、実務への応用可能性を大きく広げる。産業機器の異常箇所検知、UIレイアウト分析、財務レポートのダッシュボード解読、技術図面からの情報抽出――視覚情報が鍵となる業務での有用性が飛躍的に高まった。

画像生成は大きなアップデートなし

一方、画像生成についてはGPT-5.2で大きなアップデートはなかった。OpenAIのSimo氏は「今日は画像生成に関する発表はないが、さらなる進展が今後ある」と述べるにとどまっている。

この領域では、Gemini 3と同時発表された「Nano Banana Pro」――テキスト入りインフォグラフィックを最大4K解像度で生成し、Google検索と連携してリアルタイム情報を画像に組み込む――を擁するGoogleが一歩先んじている。

もっとも、Googleがこのまま黙っているはずがない。

OpenAIが「GDPval」という新たな土俵を設定したことで、Geminiもまた「経済的価値」の領域で猛追してくることは確実だ。検索エンジンという世界最大の情報インフラと、AndroidというモバイルOSを握るGoogleが、「稼ぐ力」の競争に本腰を入れたとき、何が起きるのか。この覇権争いの次章は、おそらく数カ月以内に幕を開ける。

次ページが続きます：
【Gemini、Claudeとの熾烈な覇権争い】