大型语言模型相关资讯及大型语言模型相关产品

腾讯“混元-T1”推理模型基准测试媲美OpenAI的o1能力

腾讯近日推出了全新大型语言模型——混元-T1，并声称其推理能力与OpenAI的顶尖推理系统不相上下。据腾讯披露，混元-T1在研发过程中深度依赖强化学习，训练后高达96.7%的算力都致力于提升模型的逻辑…

阿里Qwen2.5-VL-32B模型发布：视觉语言与数学推理双全能

在人工智能领域，阿里巴巴近日公布了一则引人瞩目的消息：他们开源了最新的多模态模型——Qwen2.5-VL-32B-Instruct。作为Qwen2.5系列的新成员，这款32B版本的模型在维持高性能的同…

中国AI新秀DeepSeek-V3惊艳亮相：20令牌/秒高效运算，或将重塑AI领域?

中国人工智能初创公司DeepSeek近期低调发布了大型语言模型DeepSeek-V3-0324，这一举动在人工智能领域引起了不小的震动。该模型以惊人的641GB体积亮相于AI资源库Hugging Fa…

王炸！DeepSeek-V3-0324全新上线，免费使用，适用消费级电脑！

DeepSeek 悄然发布了最新大型语言模型 DeepSeek-V3-0324，在人工智能行业引发了强烈震动。这款容量高达641GB的模型在 AI 模型库 Hugging Face 上低调亮相，延续了…

DeepSeek-V3-0324惊艳亮相：免费商用，电脑轻松驾驭！

DeepSeek 悄然发布了最新大型语言模型 DeepSeek-V3-0324，在人工智能行业引发强烈震动。这款容量高达641GB的模型意外亮相于AI模型库Hugging Face，延续了该公司低调却…

李开复重构AI战略：拥抱Deepseek开源模型，挑战OpenAI商业典范。

李开复，前谷歌中国区负责人，正在对其人工智能初创公司01.AI的战略进行调整。公司现已全面采用Deepseek的开源模型，这一转变对OpenAI的商业模式构成了挑战。在接受《南华早报》采访时，李开复…

Cursor 推出 Claude Max，改写 AI 编程格局

一场悄无声息的革命正在编程世界展开。Cursor 最新推出的 Claude Max 模型，以其惊人的性能和突破性的能力，正在重新定义我们对 AI 辅助编程的认知边界。这款搭载 Claude3.7大脑的…

32B参数的“逆袭”！OLMo 2 32B横空出世，叫板GPT-3.5 Turbo

近日，艾伦人工智能研究所（AI2）重磅发布了其最新的大型语言模型——OLMo232B。这款模型一经亮相便自带光环，因为它不仅是OLMo2系列的最新力作，更以“完全开放”的姿态，向那些高墙深垒的专有模型…

OpenAI 发布报告：大多数GPT-4o API问题已解决

3月18日，OpenAI 发布了最新的事故报告，宣布其 GPT-4o API 问题已基本得到解决。几天前，该公司曾指出，由于用户通过 API 使用 GPT-4o 时出现响应性能下降，导致部分用户受到影…

xAI收购AI视频生成初创公司Hotshot，加强与OpenAI Sora竞争

近日，埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot，这标志着马斯克在AI视频生成领域的重要布局。Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X…

Anthropic或将发布Claude3.7Sonnet Max？Cursor更新引发猜测

近日，AI代码编辑器Cursor在其最新版本0.47.5的更新日志中透露，正在为Anthropic即将推出的“Claude3.7Sonnet Max”模型做准备。这一消息迅速引发业内关注。然而，目前A…

谷歌持有Anthropic14%股份，投资已达30亿美元

根据《纽约时报》获取的法律文件显示，谷歌目前持有人工智能初创公司Anthropic14%的股份，接近其允许持有的15%上限。值得注意的是，尽管投资规模庞大，谷歌在Anthropic并不享有投票权、董事…

AI21 Labs发布Jamba 1.6，打破长文本处理极限、支持多种语言

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下…

阿里开源多语言大模型Babel，支持25种语言、赋能全球九成人口

阿里巴巴达摩院开源了一款多语言大型语言模型Babel，其宏伟目标正是弥合语言鸿沟，让AI能够理解并使用全球九成以上人口的语言进行交流。当前许多大型语言模型往往更青睐英语、法语、德语等资源丰富的语言。…

Light-R1-32B:低成本高性能的数学解题新星闪耀登场

2025年3月6日，一款名为 **Light-R1-32B** 的全新语言模型正式亮相。这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器，经过特别训练，以其卓越的数学…

IBM 推出小型AI模型 Granite 3.2 ，强调高效推理与实用性

IBM 最近发布了其最新的 Granite3.2大型语言模型，旨在为企业和开源社区提供 “小巧、高效、实用” 的企业人工智能解决方案。该模型不仅具备多模态和推理能力，还提升了灵活性和成本效益，使得用户…

苹果App Store即将推AI生成应用评论摘要，轻松获取用户反馈

近日，苹果公司宣布将在即将发布的 iOS18.4中引入 AI 生成的应用评论摘要功能。根据 Macworld 的报道，这一新功能将为部分 App Store 应用程序提供用户评论的简要摘要。这些摘要由…

通义灵码上线Qwen2.5-Max推理模型

2025年3月3日，通义灵码宣布上线其最新推理模型Qwen2.5-Max，为开发者带来强大的编程和数学能力支持。Qwen2.5-Max使用了超过20万亿token的预训练数据，并结合精心设计的后训练方…

戴尔预测2026财年利润率下降，受AI服务器成本上涨影响

在竞争激烈的市场环境中，戴尔公司（Dell）于本周四发布了2026财年的业绩展望，预计其调整后的毛利率将出现下降。这主要是由于用于生产人工智能(AI)服务器的成本上升所致。此外，戴尔的个人电脑业务在需…

研究发现，在不安全代码上训练的 AI 模型变得有毒

近日，一组 AI 研究者发现了一个令人关注的现象:当模型在不安全的代码上进行微调时，会产生一些相当有毒的输出。研究团队在其最新发表的论文中指出，包括 OpenAI 的 GPT-4o 和阿里巴巴的 Q…

GPT-4.5发布：价格飙升30倍能力提升引发热议

2025 年 2 月 27 日，OpenAI正式发布了其最新聊天模型GPT-4.5，这一消息迅速在Twitter（现为X平台）上引发了广泛讨论。作为OpenAI迄今为止最强大的对话模型，GPT-4. …

Claude 3.7正式登陆Trae平台，用户可升级体验更智能AI

2025 年 2 月 27 日，Trae官方推特账号@Trae_ai发布了一则令人振奋的消息：备受期待的Claude 3. 7 现已正式在Trae平台上推出！该消息于太平洋标准时间（PST）上午6: …

OpenAI 发布 GPT-4.5：迄今最强大模型亮相强化推理与情感智能

2025年2月27日—— OpenAI 于今日正式推出其最新语言模型 GPT-4.5，作为研究预览版率先提供给 ChatGPT Pro 用户（每月订阅费200美元）。这款被誉为“迄今为止最大、最知识渊…

Claude 3.7 Sonnet正式登陆Perplexity Pro：代理工作流与代码生成显著提升

人工智能搜索平台Perplexity宣布，其Pro版本现已整合Anthropic公司最新发布的Claude3.7Sonnet模型。根据Perplexity官方在X平台上的最新消息，该公司已对这一模型进…

斯坦福新AI框架 OctoTools：无需训练，让AI实现高效复杂推理！

在人工智能（AI）领域，尽管大型语言模型(LLMs)在处理自然语言方面表现出色，但它们在面对复杂推理任务时常常显得力不从心。这些任务通常需要多步骤的推理、领域特定的知识，或者外部工具的有效集成。为了克…

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本…

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许…

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-…