Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

一位12年级的学生创建了一个革新性的平台，使得人们可以评估不同的AI模型在Minecraft创作任务中的表现，这一举措为人工智能的性能评测注入了新的视角。

新基准测试应对传统评估的局限

随着传统的AI基准测试方法的局限性愈发显现，开发者们开始探寻更富创新性的评估路径。对一部分开发者来说，微软的沙盒建造游戏Minecraft成为了一个理想的选择。

高中生Adi Singh与他的团队共同开发的Minecraft Benchmark（简称MC-Bench）网站，让AI模型能够在面对面的挑战中展开竞争，通过Minecraft的创作来回应各类提示。用户可以通过投票选出表现更出色的模型，在投票后才能揭晓每个作品背后的AI创作者。

Singh指出，选择Minecraft作为测试平台，主要是因为其广泛的知名度——作为有史以来最热销的电子游戏之一，即便是对从未玩过的人而言，也能轻易地判断出哪个方块堆砌的菠萝更加出色。

“Minecraft让人们能更直观地看到AI开发的进展，”Singh对TechCrunch表示，“人们已经习惯了Minecraft的视觉风格和游戏氛围。”

Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

项目获AI领军企业支持

MC-Bench目前吸引了8名志愿者参与其中。根据官网信息，Anthropic、Google、OpenAI以及阿里巴巴等公司均已为该项目提供资助，允许使用它们的产品来运行基准测试，但这些公司与项目并无其他直接联系。

Singh分享了他对这个项目的未来期望：“目前，我们只关注简单的构建任务，并反思相较于GPT-3时代我们所取得的进步。然而，我们计划将测试范围扩展至长期规划和目标导向的任务。游戏或许只是测试代理推理能力的一个媒介，它相较于现实生活更为安全，且在测试控制方面更为简便，在我看来，这是一个更为理想的选择。”

除了Minecraft之外，《精灵宝可梦红》、《街头霸王》以及《你画我猜》等游戏也被用作AI实验的基准，部分原因在于AI基准测试本身所具有的高挑战性。

Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

直观评估取代复杂指标

研究人员通常会在标准化的评估中测试AI模型，但这些测试往往让AI占据主场优势。由于训练方式的特点，模型在某些类型的问题上表现出天生的优势，特别是那些涉及记忆或基本推理的任务。

这种矛盾在多个案例中均有所体现：OpenAI的GPT-4能在LSAT考试中取得88%的成绩，却无法准确地数出“strawberry”一词中包含多少个“R”；而Anthropic的Claude3.7Sonnet在标准化的软件工程基准测试中准确率达到了62.3%，但在玩Pokémon游戏方面的表现却不如大多数五岁的儿童。

从技术视角来看，MC-Bench相当于一个编程基准，它要求模型编写代码来创建特定的构建，例如“雪人弗罗斯蒂”或“原始沙滩上的迷人热带海滩小屋”。然而，对大多数用户而言，评估雪人的外观远比深入分析代码来得更为直观，这使得该项目能够吸引更广泛的群体参与，并有望收集到更多关于模型性能的数据。

尽管这些分数对于AI实用性的影响仍有待进一步探讨，但Singh坚信这是一个积极的信号：“目前的排行榜与我个人使用这些模型的经验高度吻合，这与许多纯文本基准测试形成鲜明对比。或许MC-Bench能够帮助企业了解他们是否正朝着正确的方向前进。”

七个圈AIGC破圈俱乐部欢迎您！

9.2万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.7万用户在看

Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

最近更新

文章目录

Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

新基准测试应对传统评估的局限

项目获AI领军企业支持

直观评估取代复杂指标

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

9.2万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.7万 用户在看

Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

最近更新

文章目录

Minecraft化身为AI竞技舞台：高中生创新打造模型评测平台

新基准测试应对传统评估的局限

项目获AI领军企业支持

直观评估取代复杂指标

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

9.2万用户在看

7.6万用户在看

6.2万用户在看

5.7万用户在看