在今天凌晨1点的技术直播中,OpenAI正式推出其最新最强大的多模态模型o4-mini和满血版o3。这两款模型具备独特优势,不仅能同时处理文本、图像和音频,还可作为智能体自动调用网络搜索、图像生成、代码解析等工具,并且拥有深度思考模式,能在思维链中思考图像。

OpenAI发布两款多模态推理模型o4-mini、满血版o3

OpenAI公布的测试数据显示,o4-mini表现卓越。在AIME2024和2025测试中,其准确率分别达到93.4%和92.7%,甚至超越满血版o3,成为目前准确率最高的模型。在Codeforces编程竞赛测试中,o4-mini获得2700分,跻身全球前200名最强程序员之列。

与传统大模型不同,OpenAI首次赋予o3和o4-mini调用外部工具的能力。在训练过程中,模型不仅学习文本生成,还学习在面对复杂任务时如何选择合适的工具辅助推理。例如,解决复杂数学问题时,模型可调用计算器工具完成复杂计算;处理图像数据时,能调用图像处理工具进行裁剪、旋转等操作。这种工具使用能力使模型能应对更复杂的任务场景。

多模态推理能力是o3和o4-mini的另一大亮点。它们能同时处理文本、图像、音频等不同模态的数据,并进行有机整合。OpenAI采用创新的神经网络架构,将图像和文本数据分别编码为统一的特征表示。对于图像数据,通过卷积神经网络提取特征;对于文本数据,使用Transformer编码器提取语义信息。然后,通过一个融合模块将这些不同模态的特征进行整合,生成统一的特征表示,实现多模态数据的联合处理。此外,模型还具备对不同模态数据的动态处理能力,能根据任务需求动态调整处理权重。

OpenAI发布两款多模态推理模型o4-mini、满血版o3

在训练方面,OpenAI采用大规模无监督学习和少量监督学习相结合的方式。无监督学习部分,模型通过大量文本和图像数据进行预训练,学习语言和图像的基本特征和模式;监督学习部分,通过标注数据和工具使用数据对模型进行微调,使其更好地理解和使用工具。

在基准测试中,o3和o4-mini表现出色。在AIME2024测试中,o3准确率为91.6%,o4-mini为93.4%;在AIME2025测试中,o3准确率为88.9%,o4-mini为92.7%。在编程竞赛(Codeforces)测试中,o4-mini达到2719分,位列全球前200名参赛者之列,o3为2706分。在博士级问题解答GPQA测试中,o3模型准确率达到83%,o4-mini为81.4%。在多模态任务方面,o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模态基准测试中同样表现出色。

除常规测试外,OpenAI还分享了一些实际使用测试结果。在科学研究领域,模型能帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路;在软件开发领域,能帮助开发者快速定位和修复代码中的错误。这些实际应用测试结果进一步证明了o3和o4-mini在处理复杂科学问题和实际开发任务中的高效性和巨大潜力。

从今天起,ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限,所有计划的速率限制与之前的模型保持不变。满血版o3和o4-mini也通过Chat Completions API和Responses API向开发者开放。Responses API支持推理摘要功能,能在函数调用时保留推理标记以提升性能,并且很快将支持内置工具,包括网页搜索、文件搜索和代码解释器,以增强模型的推理能力。