美国三AI做日本“高考真题”,谁的成绩更好?

四季读书网 2026-05-05 20:54:06 1 0

东京大学的赤门（东京都文京区）

OpenAI在东京大学和京都大学的所有科类和学科中都排在首位，在2025年东大调查中曾是弱项的数学得了满分，还在京大化学考试中获得满分，理科科目很强，而谷歌则在国语等科目也得到高分，擅长科目不同……

美国OpenAI和美国谷歌的人工智能（AI）模型在被认为是日本最难考的东京大学理科三类考试中，超过了人类考生的最高分。OpenAI在东京大学和京都大学的所有科类和学科中都排在首位。在2025年东大调查中曾是弱项的数学得了满分。

美国三AI做日本“高考真题”,谁的成绩更好? 第2张

《日本经济新闻》（中文版：日经中文网）与日本的AI初创企业LifePrompt、大型补习学校河合塾进行了联合调查，让AI读取2026年入学试题的数据并输出答案，由河合塾的讲师批阅打分。

此次以OpenAI的“GPT 5.2 Thinking”、谷歌的“Gemini 3 Pro Preview”、美国Anthropic的“Claude Opus 4.5”这些各家企业的尖端模型为对象进行了测试。OpenAI除了数学之外，还在京都大学化学考试中得满分，理科科目很强，而谷歌则在国语等科目上也得到高分，擅长科目有所不同。

在两所大学的全部科目和院系，OpenAI模型在大学入学统一考试和二次考试加起来的总得分上超过了人类考生的最高分。在东大理科中，OpenAI得了503分，谷歌为496分，超过了最难考的东大学理科三类（满分550分）的最高分（453分）。谷歌在东大的所有科目中排名第一。在包括东大理科三类和京都大学医学部医学科在内的所有科目上，Anthropic的模型也全部达到合格标准。

在东大、京都大学的各11个科目中，OpenAI在两所大学的文科数学、理科数学以及京都大学化学共计5个科目得了满分。谷歌在数学三科获得满分，而Anthropic在东大物理科目获得满分。

在2025年以OpenAI为对象实施的调查中，数学因论述错误和说明不足而多次减分，东大理科数学的得分率不到一半。AI不断改良逻辑思考的机制，取得了成果。在按顺序进行必要计算的同时，没有多余表述，简洁地写下论证，显示出进步。

2025年给东大数学打分的河合塾的讲师香坂季京评价称，2026年的论证过程写得很仔细，“是2025年无法相比的模范答案”。

OpenAI在物理和化学领域的得分率接近9成，另一方面，国语和东大的历史科目得分则停滞不前。在东大的世界史考题中，“虽然知识丰富，但逻辑关系薄弱”（讲师坂本新一），多次被扣分，得分率只有25%。在各科中，也出现了输出字数大幅超过答案栏导致被扣分的“粗心错误”。

谷歌在东大的世界史的得分率为8成，日本史也接近7成，没有不擅长的科目，东大文科科目的合计得分超过了OpenAI。Anthropic则是日本史获得第一名，优势领域有所不同。谷歌在2026年1月的大学统一考试调查中，还擅长读取地理图。根据AI学习的数据和模型的特点，优势各不相同。AI用户需要根据业务内容来选择模型。

LifePrompt的首席执行官（CEO）远藤聪志表示，“AI模型的基础聪明度得到了充分展示。今后将考验人类的‘设计能力’，即如何将自身的数据和业务与AI联系起来”。

日经中文网 https://cn.nikkei.com

视频号推荐内容：

本文地址： https://sjds.net/677419.html

文章来源：四季读书网