高中生打造《我的世界》AI模型评测平台，全民参与评判智能模型优劣。

在人工智能技术飞速发展的今天，评估和比较不同生成式AI模型的实力成为了一个备受关注的难题。传统的AI基准测试方法逐渐显露出其局限性，为此，AI开发者们正在积极探索更具创新性的评估途径。

近日，一个名为“Minecraft Benchmark”（简称MC-Bench）的网站横空出世。该网站利用微软旗下的沙盒建造游戏《我的世界》作为平台，让用户通过对比AI模型根据提示所创建的游戏作品，来评估它们的表现。令人惊讶的是，这个新颖平台的创建者竟然是一位年仅12年级的学生。

“我的世界”变身AI竞技场。MC-Bench网站提供了一个直观有趣的AI模型评测方式。开发者们将不同的提示输入到参与测试的AI模型中，模型则会生成相应的《我的世界》建筑。用户可以在不清楚哪个作品由哪个AI模型创建的情况下，对这些建筑进行投票。这种“盲选”机制旨在更客观地反映AI模型的实际生成能力。

Adi Singh表示，选择《我的世界》作为基准测试的平台，不仅因为游戏本身的受欢迎程度，更重要的是，这款游戏的广泛普及性和人们对其视觉风格的熟悉度，使得即使是没有玩过这款游戏的人，也能够相对容易地判断出哪个由方块构成的菠萝看起来更逼真。他认为，《我的世界》让人们更容易看到AI发展的进步，这种可视化的评估方式比单纯的文本指标更具说服力。

MC-Bench目前主要进行相对简单的建筑任务，例如根据提示让AI模型编写代码来创建相应的游戏结构。这本质上是一个编程基准测试，但其巧妙之处在于，用户无需深入研究复杂的代码，仅凭直观的视觉效果就能判断作品的优劣。

MC-Bench的设计理念在于让大众能够更直观地感受到AI技术的发展水平。尽管MC-Bench由Adi Singh发起，但其背后也聚集了一批志愿贡献者。多家顶尖AI公司都为该项目提供了使用其产品的补贴，以运行基准测试。

对于MC-Bench的未来，Singh充满了展望。他表示，未来可能会扩展到更长期的计划和目标导向的任务。他认为，游戏可能成为测试AI“代理推理”能力的一种安全且可控的媒介。

除了MC-Bench之外，其他游戏如《街头霸王》和《你画我猜》也曾被用作AI的实验性基准测试。传统的标准化评估往往存在“主场优势”，而MC-Bench的出现，为评估生成式AI模型的能力提供了一种新颖且更易于理解的视角。通过利用大众熟知的游戏平台，它将复杂的AI技术能力转化为直观的视觉对比，让更多人能够参与到AI的评估和认知过程中。

项目入口：https://top.aibase.com/tool/mc-bench。

打赏