一位12年级的学生创建了一个革新性的平台,使得人们可以评估不同的AI模型在Minecraft创作任务中的表现,这一举措为人工智能的性能评测注入了新的视角。

新基准测试应对传统评估的局限

随着传统的AI基准测试方法的局限性愈发显现,开发者们开始探寻更富创新性的评估路径。对一部分开发者来说,微软的沙盒建造游戏Minecraft成为了一个理想的选择。

高中生Adi Singh与他的团队共同开发的Minecraft Benchmark(简称MC-Bench)网站,让AI模型能够在面对面的挑战中展开竞争,通过Minecraft的创作来回应各类提示。用户可以通过投票选出表现更出色的模型,在投票后才能揭晓每个作品背后的AI创作者。

Singh指出,选择Minecraft作为测试平台,主要是因为其广泛的知名度——作为有史以来最热销的电子游戏之一,即便是对从未玩过的人而言,也能轻易地判断出哪个方块堆砌的菠萝更加出色。

Minecraft化身为AI竞技舞台:高中生创新打造模型评测平台

“Minecraft让人们能更直观地看到AI开发的进展,”Singh对TechCrunch表示,“人们已经习惯了Minecraft的视觉风格和游戏氛围。”

Minecraft化身为AI竞技舞台:高中生创新打造模型评测平台

项目获AI领军企业支持

MC-Bench目前吸引了8名志愿者参与其中。根据官网信息,Anthropic、Google、OpenAI以及阿里巴巴等公司均已为该项目提供资助,允许使用它们的产品来运行基准测试,但这些公司与项目并无其他直接联系。

Singh分享了他对这个项目的未来期望:“目前,我们只关注简单的构建任务,并反思相较于GPT-3时代我们所取得的进步。然而,我们计划将测试范围扩展至长期规划和目标导向的任务。游戏或许只是测试代理推理能力的一个媒介,它相较于现实生活更为安全,且在测试控制方面更为简便,在我看来,这是一个更为理想的选择。”

Minecraft化身为AI竞技舞台:高中生创新打造模型评测平台

除了Minecraft之外,《精灵宝可梦红》、《街头霸王》以及《你画我猜》等游戏也被用作AI实验的基准,部分原因在于AI基准测试本身所具有的高挑战性。

Minecraft化身为AI竞技舞台:高中生创新打造模型评测平台

直观评估取代复杂指标

研究人员通常会在标准化的评估中测试AI模型,但这些测试往往让AI占据主场优势。由于训练方式的特点,模型在某些类型的问题上表现出天生的优势,特别是那些涉及记忆或基本推理的任务。

这种矛盾在多个案例中均有所体现:OpenAI的GPT-4能在LSAT考试中取得88%的成绩,却无法准确地数出“strawberry”一词中包含多少个“R”;而Anthropic的Claude3.7Sonnet在标准化的软件工程基准测试中准确率达到了62.3%,但在玩Pokémon游戏方面的表现却不如大多数五岁的儿童。

从技术视角来看,MC-Bench相当于一个编程基准,它要求模型编写代码来创建特定的构建,例如“雪人弗罗斯蒂”或“原始沙滩上的迷人热带海滩小屋”。然而,对大多数用户而言,评估雪人的外观远比深入分析代码来得更为直观,这使得该项目能够吸引更广泛的群体参与,并有望收集到更多关于模型性能的数据。

尽管这些分数对于AI实用性的影响仍有待进一步探讨,但Singh坚信这是一个积极的信号:“目前的排行榜与我个人使用这些模型的经验高度吻合,这与许多纯文本基准测试形成鲜明对比。或许MC-Bench能够帮助企业了解他们是否正朝着正确的方向前进。”