Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

人工智能（AI）模型的发展速度让人眼花缭乱，技术开发者们在不断提升其性能的同时，也引发了用户对于模型表现真实度的疑虑。为了解决这一问题，由杰弗里・辛顿(Geoffrey Hinton)创办的 Vector Institute 为人工智能研究推出了《评估现状研究》。该研究通过互动排行榜对11个顶尖的开放源代码和闭源模型进行了全面评测，涵盖了数学、通用知识、编码、安全性等16个基准。

Vector Institute 的 AI 基础设施与研究工程经理约翰・威尔斯（John Willes）表示:“研究人员、开发者、监管者和最终用户可以独立验证结果，比较模型性能，并构建自己的基准和评估，从而推动改进和责任的落实。”

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

图源备注：图片由AI生成，图片授权服务商Midjourney

在这次评估中，表现最好的模型包括 DeepSeek 和 OpenAI 的 o1，而表现较差的模型则是 Command R+，后者在测试中显示出较低的性能，这主要是因为其是测试中规模最小且最老的模型。

研究发现，闭源模型在复杂的知识和推理任务中通常表现优于开放源代码模型，但 DeepSeek 的优秀表现表明开放源代码模型也能够保持竞争力。威尔斯指出:“在简单任务中，这些模型相当有能力，但随着任务复杂度增加，我们发现推理能力和理解能力大幅下降。”

此外，所有11个模型在评估实际问题解决能力的 “代理性基准” 上都面临挑战，特别是在软件工程和其他需要开放式推理和规划的任务中，仍有很长的路要走。为了解决这一问题，Vector Institute 开发了多模态巨量多任务理解（MMMU）基准，评估模型处理图像和文本的能力。

在多模态理解的评估中，o1展现了 “卓越” 的能力，尤其是在不同格式和难度水平下。而威尔斯强调，当前仍需更多努力以实现真正的多模态系统，能够统一处理文本、图像和音频输入。

针对评估中的挑战，威尔斯指出，评估泄露是一个重要问题，即模型在熟悉的评估数据集上表现良好，但在新数据上却不再出色。他认为，开发更具创新性的基准和动态评估将是解决这一问题的关键。

七个圈AIGC破圈俱乐部欢迎您！

9.2万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.5万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.1万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.6万用户在看

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

最近更新

文章目录

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

9.2万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.5万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.1万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.6万 用户在看

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

最近更新

文章目录

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

9.2万用户在看

7.5万用户在看

6.1万用户在看

5.6万用户在看