AIも間違えた2026共通テストの問題。生成AIが得意の数学で満点を取れなかった理由を東大院生が解説

亀田崚 : 東京大学大学院理学系研究科学生・日曜劇場『御上先生』教育監修

2026/01/21 7:00

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

この記事を執筆するに際して、ネット上で公開されている様々な「入試問題をAIに解かせてみた」という記事を拝見しましたが、文字認識の時点で齟齬が生まれておりAIの本領を発揮していないケースが多いように思われます。

実際、同様の条件で試した場合でも、文字認識を一度経由してから問題を解かせることで、正答率が向上することを確認済みです。

2026年1月現在のAIを教育の現場で活用しようと考えるのであれば、苦手な文字認識を人間がサポートしたのち、得意分野である科学的推論をAIに依頼することが大事であると言えるでしょう。

AIの性能は年々上がっている

AIの性能は年々、上昇し続けています。特にGPT-5.2のThinkingモデルは、コーディングや数学などのSTEM分野の推論だけでなく、専門知識を有しての知的労働を得意としExcelやPowerPointなどの外部ツールとの連携が可能であることをウリとしています。

ここではFrontierMathと呼ばれる、数学問題集を用いたAIベンチマーク測定用の結果を見てみましょう。GPT-5.2は、比較的簡単な問題群（大学院レベル）であるTier1～3で40.6%を、研究者向けの超高難易度問題群であるTier4では最大29.2%を獲得しており、これは他のAIモデルの中でトップスコアです。

FrontierMathの作成元であるEPOCH AIが公表するベンチマーク比較

FrontierMathの作成元であるEPOCH AIが公表するベンチマーク比較。新しいモデルほど、正答率が高い（画像：筆者提供）

この比較表を見るだけでも、新しいモデル（右）ほど、正答率が高い（上）ことが分かります。

→次ページ実際にAIが解いている問題

← 1 2 3 4 →

特集一覧

イランショック

「責任ある積極財政」は日本経済を、強く豊かにするのか。

JR東日本運賃値上げの余波

JTの逆襲

特集一覧はこちら

トピックボードAD

有料会員限定記事

編集部厳選､注目の経済ニュース！【3月14日】

最新版!｢就職支援スタッフが多い大学｣上位200

｢AIのフェイク画像はAIで見破れる｣は本当か？

ホルムズ海峡封鎖･イランは機雷をどう敷設する？

戦争長期化予想､原油､ガス､電力の価格はどうなる

イランとの戦争を不可避にした｢2018年の決定｣

キャリア・教育の人気記事

トレンドライブラリーAD

連載一覧

連載一覧はこちら

キャリア・教育
アクセスランキング

1時間
24時間
週間
月間
シェア

※過去1ヶ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※週間いいねとシェアの合計(増分)

» 11～30位はこちら

会員記事アクセスランキング

1時間
24時間
週間
月間

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

トレンドウォッチAD

週刊東洋経済の最新号

2026年3月14日・21日号

この号を読む定期購読

バックナンバー一覧はこちら

東洋経済の書籍

新刊
ランキング

※3カ月以内に発刊した書籍の中から話題の書籍を紹介しています。