OpenAI于周四正式发布了备受期待的AI语言模型"o1"。这款被称为"Strawberry"的新模型声称在"推理"和问题解决能力方面较之前的大型语言模型有显著提升。o1模型系列目前以o1-preview和o1-mini两种形式推出,面向ChatGPT Plus用户和部分API用户开放使用。

草莓终于来了!OpenAI重磅发布"o1"模型:推理能力超越人类

o1最引人注目的特点是其拟人化的思考过程。在回答问题前,o1会进入一种特殊的思考模式,将复杂问题分解成多个小步骤逐一解决,生成一条较长的内部思维链,从而得出更加准确的答案。

草莓终于来了!OpenAI重磅发布"o1"模型:推理能力超越人类

这种技术被谷歌DeepMind称为"训练时计算"(Test-time computation),其核心在于使用密集型、流程导向的验证奖励模型搜索,以及自适应地更新模型对响应的概率分布。

要点总结:

  • 01-preview 和01-mini 版本响应时间较长,会像人一样慢慢思考;

  • 01系列处于测试阶段,仅支持文本功能,其他特性如联网、制图、文件导入等待开发;

  • API原型开发受限于每分钟20次请求;

  • API缺乏函数调用、流式输出、系统信息等功能支持。

o1强在哪?

OpenAI表示,o1-preview在多项基准测试中超越了其前身GPT-4o,包括竞争性编程、数学和"科学推理"等领域。

草莓终于来了!OpenAI重磅发布"o1"模型:推理能力超越人类

在编程方面,o1-preview在Codeforces的竞争性编程问题中排名第89百分位。

在美国数学奥林匹克预选赛中,o1的表现可比肩美国前500名学生。o1的数学能力令人瞩目,在国际数学奥林匹克竞赛的资格考试中,o1-preview得分高达83%,而GPT-4o仅为13%。

更令人震惊的是,o1在物理、生物学和化学等基准测试中首次超越了人类博士水平,标志着AI在复杂推理能力上取得了突破性进展。

草莓终于来了!OpenAI重磅发布"o1"模型:推理能力超越人类

o1推理能力为什么强?

o1的进步主要归功于一种新的强化学习训练方法。这种方法教会模型在回答问题前花更多时间"思考",类似于其他大语言模型中的"让我们一步步思考"的思维链提示。这一过程使o1能够尝试不同的策略并"识别"自己的错误。

OpenAI表示,未来将继续开发o1和GPT系列模型,并计划为o1-preview添加网页浏览、图像生成和文件上传等功能。

然而,这些令人印象深刻的数据背后也存在争议。有用户反馈,o1并非在所有指标上都优于GPT-4o。

另外,由于模型在后台进行多步处理,导致响应时间较长,也引发了一些批评。OpenAI产品经理Joanne Jang在社交媒体上表示:"o1是第一个在极其困难的任务中表现出色的推理模型,而且它只会变得更好。但它还不是一个在所有方面都优于以前模型的'奇迹模型'。"

草莓终于来了!OpenAI重磅发布"o1"模型:推理能力超越人类

值得注意的是,AI基准测试向来不太可靠且容易被操纵。o1的真实能力还需要通过用户的独立验证和实验来证实。今年早些时候,麻省理工学院的研究就表明,OpenAI去年关于GPT-4的一些基准声明存在错误或夸大。

除了性能提升,o1还引发了关于AI"推理"能力的讨论。一些技术界人士认为,将"思考"或"推理"等人类特征归因于AI模型是不恰当的。

官方资料