AI智能遇挑战：ARC-AGI-2难倒顶尖模型

近日，Arc Prize基金会推出了一项新测试——ARC-AGI-2，该测试旨在评估人工智能（AI）模型的通用智能水平。该基金会由AI研究领域的知名人士François Chollet共同创立。据基金会官方博客透露，这项新测试对众多领先的AI模型构成了严峻挑战。

根据Arc Prize排行榜显示，包括OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型在ARC-AGI-2测试中的得分仅在1%至1.3%之间。而更为强大的非推理模型，如GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash，其得分也大致在1%左右。ARC-AGI测试包含了一系列拼图问题，要求AI从不同颜色的方块中识别视觉模式，并生成正确的“答案”网格。这些问题的设计初衷是迫使AI适应前所未有的新情境。

为了确立人类基准，Arc Prize基金会邀请了400余人参与ARC-AGI-2测试。这些参与者的平均得分为60%，显著超越了任何AI模型的得分。Chollet在社交媒体上表示，相较于前一个版本ARC-AGI-1，ARC-AGI-2更能有效地衡量AI模型的实际智能水平。新测试旨在评估AI系统是否能高效掌握超出其训练数据范围的新技能。

与ARC-AGI-1相比，ARC-AGI-2在设计上进行了多方面的改进，尤其是引入了“效率”这一新评估指标，并要求模型在不依赖记忆的情况下即时解析模式。正如Arc Prize基金会的共同创始人Greg Kamradt所言，智力不仅体现在解决问题的能力上，效率同样至关重要。

值得注意的是，在ARC-AGI-1测试中表现卓越的OpenAI的o3模型，曾以75.7%的得分独占鳌头，直至2024年才被其他模型超越。然而，在ARC-AGI-2测试中，o3的得分骤降至4%，且每个任务的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的AI进展衡量标准的需求日益迫切之际。Hugging Face的联合创始人Thomas Wolf曾指出，AI行业缺乏足够的测试来衡量人工通用智能的关键特征，包括创造力。

同时，Arc Prize基金会还宣布了2025年的Arc Prize竞赛。该竞赛将挑战开发者在ARC-AGI-2测试中实现85%的准确率，且每个任务的成本需控制在0.42美元以内。

划重点：
🌟 ARC-AGI-2是Arc Prize基金会新推出的测试，旨在衡量AI的通用智能水平。
📉 目前顶尖AI模型在该测试中的得分普遍较低，远低于人类的平均水平。
🏆 Arc Prize基金会还将举办挑战赛，鼓励开发者以低成本提升AI在新测试中的表现。

打赏

七个圈AIGC破圈俱乐部欢迎您！

8.8万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.1万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.7万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.3万用户在看

AI智能遇挑战：ARC-AGI-2难倒顶尖模型

最近更新

文章目录

AI智能遇挑战：ARC-AGI-2难倒顶尖模型

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.8万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.1万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.7万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.3万 用户在看

AI智能遇挑战：ARC-AGI-2难倒顶尖模型

最近更新

文章目录

AI智能遇挑战：ARC-AGI-2难倒顶尖模型

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8.8万用户在看

7.1万用户在看

5.7万用户在看

5.3万用户在看