草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

OpenAI于周四正式发布了备受期待的AI语言模型"o1"。这款被称为"Strawberry"的新模型声称在"推理"和问题解决能力方面较之前的大型语言模型有显著提升。o1模型系列目前以o1-preview和o1-mini两种形式推出，面向ChatGPT Plus用户和部分API用户开放使用。

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

o1最引人注目的特点是其拟人化的思考过程。在回答问题前，o1会进入一种特殊的思考模式，将复杂问题分解成多个小步骤逐一解决，生成一条较长的内部思维链，从而得出更加准确的答案。

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

这种技术被谷歌DeepMind称为"训练时计算"（Test-time computation），其核心在于使用密集型、流程导向的验证奖励模型搜索，以及自适应地更新模型对响应的概率分布。

要点总结:
01-preview 和01-mini 版本响应时间较长，会像人一样慢慢思考;
01系列处于测试阶段，仅支持文本功能，其他特性如联网、制图、文件导入等待开发;
API原型开发受限于每分钟20次请求;
API缺乏函数调用、流式输出、系统信息等功能支持。

o1强在哪？

OpenAI表示，o1-preview在多项基准测试中超越了其前身GPT-4o，包括竞争性编程、数学和"科学推理"等领域。

在编程方面，o1-preview在Codeforces的竞争性编程问题中排名第89百分位。

在美国数学奥林匹克预选赛中，o1的表现可比肩美国前500名学生。o1的数学能力令人瞩目，在国际数学奥林匹克竞赛的资格考试中，o1-preview得分高达83%，而GPT-4o仅为13%。

更令人震惊的是，o1在物理、生物学和化学等基准测试中首次超越了人类博士水平，标志着AI在复杂推理能力上取得了突破性进展。

o1推理能力为什么强？

o1的进步主要归功于一种新的强化学习训练方法。这种方法教会模型在回答问题前花更多时间"思考"，类似于其他大语言模型中的"让我们一步步思考"的思维链提示。这一过程使o1能够尝试不同的策略并"识别"自己的错误。

OpenAI表示，未来将继续开发o1和GPT系列模型，并计划为o1-preview添加网页浏览、图像生成和文件上传等功能。

然而，这些令人印象深刻的数据背后也存在争议。有用户反馈，o1并非在所有指标上都优于GPT-4o。

另外，由于模型在后台进行多步处理，导致响应时间较长，也引发了一些批评。OpenAI产品经理Joanne Jang在社交媒体上表示:"o1是第一个在极其困难的任务中表现出色的推理模型，而且它只会变得更好。但它还不是一个在所有方面都优于以前模型的'奇迹模型'。"

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

值得注意的是，AI基准测试向来不太可靠且容易被操纵。o1的真实能力还需要通过用户的独立验证和实验来证实。今年早些时候，麻省理工学院的研究就表明，OpenAI去年关于GPT-4的一些基准声明存在错误或夸大。

除了性能提升，o1还引发了关于AI"推理"能力的讨论。一些技术界人士认为，将"思考"或"推理"等人类特征归因于AI模型是不恰当的。

官方资料

七个圈AIGC破圈俱乐部欢迎您！

9.2万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.6万用户在看

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

最近更新

文章目录

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

9.2万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.6万 用户在看

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

最近更新

文章目录

草莓终于来了！OpenAI重磅发布"o1"模型:推理能力超越人类

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

9.2万用户在看

7.6万用户在看

6.2万用户在看

5.6万用户在看