AI大模型“集体高考”，成绩单揭晓

央广网北京6月26日消息（记者徐芳）2024年全国高考结束后，国内外众多AI 大模型随之上阵，在考场外参加了一场“高考”。6月24日，极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉，成绩单让广大网友很感兴趣。

据了解，本次“大模型考生”包括GPT-4o（OpenAI）、豆包（字节跳动）、文心4.0（百度）、百小应（百川智能）、通义千问2.5（阿里巴巴）、Kimi智能助手（月之暗面）、元宝（腾讯）、智谱清言（智谱AI）以及海螺AI（MiniMax）等。使用的考卷，是覆盖地域广泛的“新课标Ⅰ卷”，与河南省考生所用的考卷相同。

从考试成绩来看，在文科方面，GPT-4o以562分位列榜首，国产大模型豆包表现优异，斩获542.5分的高分，成功超过河南文科一本线20多分。据悉，2024年河南文科本科一批录取分数线为521分，豆包、文心4.0、百小应三款国产AI大模型成功“冲上一本线”。

真实考题+名师阅卷文科表现出色，理科成绩欠佳

据了解，本次大模型“高考”，语文作文的阅卷人是北京市级骨干教师、怀柔区语文学科带头人夏老师。夏老师多次参与全国高考语文阅卷，经验颇为丰富。记者综合网络资料发现，在文科考试中，大模型们的表现普遍比较出色，特别是在语言类科目上，展现出了一定的逻辑与语言组织能力。然而在写作方面，尽管大模型的文章结构清晰、语言通顺，但普遍存在理性有余而感性不足的情况，缺乏感情色彩与感染力。

理科方面，大模型们的成绩则普遍欠佳，多数大模型的理科总分在400分以下，与河南理科511分的一本线存在差距。

理科普遍不及格，大模型更像文科生

资料显示，在由历史、地理、政治组成的新课标“文综”考卷评测中，GPT-4o获得237分，平均分79分，优于多数真实考生。

国产大模型产品中，豆包的文综成绩最高，为224.5分。历史科目最高分82.5分，豆包摘得；政治科目最高分88分，GPT-4o摘得；地理科目最高分68分，GPT-4o摘得。

理科考试中，9款大模型产品里，数学考试只有GPT-4o、文心一言4.0和豆包获得60分以上的成绩，但面对满分150分的试卷，均未及格。在重点考查实验探究能力的化学和物理试卷中，各模型的平均分分别只有34分（满分100分）和39分（满分110分）。

尽管在理科考试中，各家大模型都有可圈可点之处，例如“豆包”大模型在求导题目和三角函数题上表现较好，展现出了一定的解题能力，但整体而言，在本次“高考”中数理科目全线不及格，大模型的理科最好成绩还无法进入真实考生的前30%。如何让大模型“文理兼修”，像人类一样思考和解决问题，大模型或许还有很长的路要走。

国产AI技术能力显著进步，挑战依然巨大

从这次“高考”结果来看，大模型在文科领域展现出了一定的优势，尤其在语言处理和知识记忆方面表现突出。河南高考分数段统计数据显示，GPT-4o的562分在文科考生中排名8811名，相当于真实考生的前2.45%，国产大模型“豆包”位列约4.27%的位置。在过去一年多的时间里，国产AI技术能力取得了显著进步。

理科领域，面对需要深度逻辑推理和灵活应变的问题时，大模型仍面临巨大挑战。这表明大模型在处理某些特定类型的任务时具备较强能力，但在综合运用知识和解决复杂实际问题方面，与人类的智力水平仍存在差距。

此次通过“高考”检验各家大模型，不仅备受业界及广大网友关注，对于大模型的发展也意义重大。一方面，为评估大模型的学习和知识运用能力提供了全新、客观的标准。同时，也让我们更加清晰地看到了各家大模型的优势和不足。在接下来的一年中，各家大模型将如何进步与发展，值得持续追踪。

七个圈AIGC破圈俱乐部欢迎您！

8.3万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.4万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.1万用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.7万用户在看

AI大模型“集体高考”，成绩单揭晓

最近更新

文章目录

AI大模型“集体高考”，成绩单揭晓

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.3万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.4万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.1万 用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.7万 用户在看

AI大模型“集体高考”，成绩单揭晓

最近更新

文章目录

AI大模型“集体高考”，成绩单揭晓

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8.3万用户在看

6.4万用户在看

5.1万用户在看

4.7万用户在看