上海人工智能实验室首次发布AI高考评测结果，数学成绩惨淡

上海人工智能实验室19日公布了首个AI高考全卷评测结果，数学成绩不佳。评测使用6个开源模型进行能力测试，数学是各模型的短板。

IT之家 6 月 20 日消息，上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。

评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

具体来看，InternLM2-20B-WQX 取得了数学单科的最高分，超越包括 GPT-4o 在内的所有模型。

IT之家注：此次参与“大模型高考”评测的产品包含 GPT-4o 及其他 6 个模型。为公平起见，此次评测没有纳入商用闭源模型。

Mixtral 8x22B：法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。
Yi-1.5-34B：零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。
GLM-4-9B：智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。
InternLM2-20B-WQX：上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。
Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。
Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

语数外三科加起来的满分为 420 分，此次高考测试结果显示，阿里通义千问 2-72B 排名第一，为 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能实验室的书生・浦语 2.0 排名第三，三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾，仅拿下 185 分。

数学是所有大模型的短板，平均得分率仅有 36%，参与测试的大模型无一及格。

此外，阅卷教师也对大模型表现进行了整体分析，为模型能力提升策略提供参考。

语文

模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

数学

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

评测结果显示数学成绩普遍不及格，文章分析了语数外三科的表现，为模型能力提升提供了策略参考。甚至出现过程错误但得到正确答案的情况，大模型的公式记忆能力强，但无法在解题过程中灵活引用。

七个圈AIGC破圈俱乐部欢迎您！

8.3万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.4万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.1万用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.7万用户在看

上海人工智能实验室首次发布AI高考评测结果，数学成绩惨淡

最近更新

文章目录

上海人工智能实验室首次发布AI高考评测结果，数学成绩惨淡

语文

数学

英语

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.3万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.4万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.1万 用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.7万 用户在看

上海人工智能实验室首次发布AI高考评测结果，数学成绩惨淡

最近更新

文章目录

上海人工智能实验室首次发布AI高考评测结果，数学成绩惨淡

语文

数学

英语

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8.3万用户在看

6.4万用户在看

5.1万用户在看

4.7万用户在看