内容持续更新中
随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此…
蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等 8 个类别的选择题,共计 4850…
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。…