OpenAI「コード・レッド(緊急事態)」宣言の深層 最新の《GPT-5.2》が狙う「賢さ」から「稼ぐ力」への競争軸転換
これまで、AIの性能競争はMMLU(Massive Multitask Language Understanding)に代表される、学術的なベンチマークのスコアを競うゲームだった。
いわば、「IQテスト」の点数を追い求める開発競争だ。しかしOpenAIの反撃は、ゲームの盤面そのものをひっくり返し、"勝ち負けの基準"を再構築することだった。
その中心にある新指標「GDPval」は、「経済的価値のある実務タスク(GDP-valuable tasks)」におけるAIのパフォーマンスを測定するために設計された、まったく新しい評価軸である。
弁護士、看護師、ソフトウェアエンジニアなど44の主要な職業における数百の実務タスク――例えば「契約紛争に関する法的準備書面の草案作成」や「Fortune 500企業のLBO(レバレッジド・バイアウト)モデルの作成」――をAIに実行させ、その成果を人間の業界トップ専門家と比較評価する。
GPT-5.2 Thinkingは、これらのタスクで人間の専門家に対し70.9%の勝率(または引き分け)を記録した。前モデルGPT-5.1の38.8%から、わずか1世代で32ポイント以上の飛躍。OpenAIが「初めて人間のエキスパート水準に達した」と主張する根拠である。投資銀行アナリスト初級の課題に限定しても、GPT-5.1の59.1%から68.4%へと9.3ポイント改善している。
しかも生産効率は人間に比べ圧倒的に高い。
GPT-5.2はこれらGDPvalのタスクを「人間の専門家より11倍以上速く、コストは1%未満」で完了した。このデータは、ホワイトカラー業務の自動化とコスト削減が、もはや空論ではなく、極めて合理的な経営判断となり得ることを定量的に示している。
ただし、GDPvalは一度の指示で完結する「タスクの代替」能力を示すものであり、曖昧な指示の解釈や人間関係の調整といった、実際の「仕事(職業)の代替」に求められる複雑な要素は評価に含まれていない。
それでもなお、この評価軸の転換が持つ意味は大きい。AIの価値をビジネスの現場に直接結びつけようとする強い意志の表れと言えるからだ。
「チャット相手」から「実務担当者」へ
GPT-5.2がもたらす最も具体的で強力な変化は、抽象的な賢さの向上ではない。ビジネスの現場で誰もが日常的に使うツールと、AIが直接的に連携し始めたことだ。これは、AIが「便利な相談相手」から、具体的な成果物を作成する「自律的なナレッジワーカー」へと変貌を遂げる、決定的な一歩と言える。
その象徴が、スプレッドシートの扱いの進化だ。これまでのAIによるデータ分析機能は、出力するPython(プログラム言語)コードを介してデータを処理し、グラフの静止画像などを表示するものだった。しかし、GPT-5.2 Thinkingは、Excelファイル(.xlsx)を「ネイティブ」に理解し、直接生成・操作できるようになった。


















無料会員登録はこちら
ログインはこちら