腾讯“混元-T1”推理模型基准测试媲美OpenAI的o1能力

腾讯近日推出了全新大型语言模型——混元-T1，并声称其推理能力与OpenAI的顶尖推理系统不相上下。据腾讯披露，混元-T1在研发过程中深度依赖强化学习，训练后高达96.7%的算力都致力于提升模型的逻辑推理能力及与人类偏好的一致性。在多项基准测试中，混元-T1展现了卓越性能。在涵盖14个学科知识的MMLU-PRO评估中，该模型取得了87.2分，稍逊于OpenAI的o1模型。而在科学推理领域，浑元-T1在GPQA-diamond测试中斩获69.3分。尤其值得一提的是，腾讯特别强调了混元-T1在数学领域的出色表现。在MATH-500基准测试中，该模型以96.2分的高分仅次于Deepseek-R1。同时，在代码生成（LiveCodeBench得分64.9）和高难度推理（ArenaHard得分91.9）方面，混元-T1同样展现了不凡实力。此外，腾讯还指出，该模型在多项中文任务上的准确率已超90%。在模型训练方面，腾讯采用了逐步增加任务难度的课程学习方法，并创新性地开发了自我奖励系统，通过模型的早期版本评估新版本的输出，从而不断推动模型性能的提升。混元-T1采用了Transformer Mamba混合架构，腾讯表示，在相同条件下，该架构处理长文本的速度是传统模型的两倍。目前，混元-T1已通过腾讯云对外开放，并在Hugging Face上提供了演示。此次发布是中国科技巨头在AI领域展开竞争的又一重磅动作，此前百度和阿里巴巴也已相继推出了自研模型，并声称达到o1水平。值得关注的是，阿里巴巴、百度和Deepseek均在积极推进开源战略。前谷歌中国区总裁、人工智能投资者李开复曾公开表示，这些中国AI模型的发展对OpenAI构成了潜在的生存威胁。

七个圈AIGC破圈俱乐部欢迎您！

9.2万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.7万用户在看

腾讯“混元-T1”推理模型基准测试媲美OpenAI的o1能力

最近更新

文章目录

腾讯“混元-T1”推理模型基准测试媲美OpenAI的o1能力

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

9.2万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

7.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

6.2万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

5.7万 用户在看

腾讯“混元-T1”推理模型基准测试媲美OpenAI的o1能力

最近更新

文章目录

腾讯“混元-T1”推理模型基准测试媲美OpenAI的o1能力

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

9.2万用户在看

7.6万用户在看

6.2万用户在看

5.7万用户在看