「ChatGPTが東大入試解いてみた」驚く結果の中身 新しい「o3」が登場、人間はどう向き合うか

2025年1月末、ChatGPTの開発元であるOpenAIは、新しい推論モデル「o3」およびその軽量版「o3-mini」を公開しました。
これらのモデルでは前世代のモデル「o1」の性能を大幅に向上させ、数学や科学、プログラミングといった、いわゆるSTEM分野の推論に特化していると公式発表されています。
米国数学オリンピックの問題では驚異的な記録
発表に際し、OpenAIは各種ベンチマークテストの結果も公開しました。アメリカの数学オリンピック(AIME)の問題を用いたテストでは、軽量版の「o3-mini」でも最大で正答率87.3%を記録し、従来モデル「o1」を上回る成績を示したといいます。
このテストは高校から大学レベルの数学的推論力を評価するものであり、新モデルの進化を裏付ける結果となりました。
さらに注目すべきは、o3モデルがFrontierMathと呼ばれる、AIのベンチマークを測定するために開発された、数学の難問を集めたデータセットで最大32%のスコアを獲得したことです。
FrontierMathがローンチされた際のベンチマークでは、Open AIの従来モデル「o1」や「4o」が示すスコアは2%未満でした。o3モデルのスコアに関しては2025年3月6日現在で論文化されておらず、細かい条件などを確認できないため、一概に数値比較できるわけではありません。それでもこのスコアは驚異的であることには変わりなく、o3モデルはSTEM分野に特化していると言われる所以であります。
ではここで日本の数学の試験、例えば東京大学の入学試験をChatGPT o3に解かせると、どのくらいの正答率になるのでしょうか。
無料会員登録はこちら
ログインはこちら