東洋経済オンラインとは
キャリア・教育

AIも間違えた2026共通テストの問題。生成AIが得意の数学で満点を取れなかった理由を東大院生が解説

6分で読める
  • 亀田 崚 東京大学大学院理学系研究科学生・日曜劇場『御上先生』教育監修
2/4 PAGES
3/4 PAGES
4/4 PAGES

実際にTier4の問題を載せてみます。この領域まで到達すると、現役の物理学専攻の大学院生である筆者ですら、問題文で何を言っているのか分からないような問題になっています。高校生が解く共通テストとは比べ物にならない難易度です。

ここからも、AIの推論力は人間をはるかに凌駕する域まで到達していると言えるでしょう。

FrontierMathのTier4レベル問題のサンプル(画像:筆者提供)

無批判に受け入れるのは危険

ただし、年々性能が向上しているとはいえ、AIの回答が間違っている可能性があることは否定できません。実際に上記の例では「問題を解く科学的な推論は間違っていないが、そもそもの画像認識で認識の齟齬が生まれていたという状況」だったので、最初に得られたAIの出力内容には誤りが含まれていました。

AIを使う際はこのような状況になることを常に想定し、AIの回答を批判的に検証して、自分の思考と逐一照らし合わせることで、間違っている部分を見つけ出すことが大事です。常に念頭に入れておきたいのは「AIが出力した内容を無批判に受け入れない」ということです。

AIは諸刃の剣。使う側の人間が批判的な思考力を持ち合わせているかどうかで、善にも悪にもなりうるツールです。便利だからこそ、十分に注意して使用すべきツールなのだと言えます。

使用したChat
2026年共通テスト数学I・Aを解き、89点を獲得したやりとり
画像をTeX形式に変換したやりとり
画像を変換した後に問題を解いたやりとり

FrontierMath関連の参考資料
FrontierMathのローンチ論文
EPOCH AIによるFrontierMathの概略
EPOCH AIによるFrontierMathのAI別ベンチマーク比較

こちらの記事もおすすめ

あなたにおすすめ

キャリア・教育

人気記事 HOT

※過去1週間以内の記事が対象