中国人工智能初创公司DeepSeek近期低调发布了大型语言模型DeepSeek-V3-0324,这一举动在人工智能领域引起了不小的震动。该模型以惊人的641GB体积亮相于AI资源库Hugging Face,延续了DeepSeek一贯的低调而富有影响力的风格,未进行大肆宣传,仅附带了空的README文件和模型权重。
这款模型采用MIT许可,意味着用户可以免费将其用于商业用途。更令人瞩目的是,它甚至可以在配备M3Ultra芯片的苹果Mac Studio这样的消费级硬件上直接运行。据AI研究人员Awni Hannun在社交媒体上透露,4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上运行时,速度超过了20令牌/秒。尽管Mac Studio的价格不菲,但能在本地运行如此大规模的模型,无疑打破了以往顶尖AI对数据中心的依赖。
DeepSeek-V3-0324采用了混合专家(MoE)架构,这种架构在执行任务时仅激活约370亿个参数,而非全部6850亿个参数,从而大幅提升了运行效率。同时,该模型还融入了多头潜在注意力(MLA)和多令牌预测(MTP)技术。MLA技术增强了模型在长文本中的上下文理解能力,而MTP技术则使模型每次能生成多个令牌,将输出速度提升了近80%。此外,4位量化版本将存储需求降低至352GB,为在高端消费级硬件上运行提供了可能。

据早期测试者反馈,DeepSeek-V3-0324相较于上一版本有了显著提升。AI研究人员Xeophon声称,该模型在所有测试指标上都取得了巨大进步,甚至已经超越了Anthropic的Claude Sonnet3.5,成为当前最佳的非推理模型。而且,与需要订阅使用的Sonnet不同,DeepSeek-V3-0324的权重可以免费下载使用。
DeepSeek的开源发布策略与西方AI公司形成了鲜明对比。诸如美国的OpenAI和Anthropic等公司往往为模型设置付费门槛,而中国AI企业则越来越倾向于采用宽松的开源许可。这一策略不仅加速了中国AI生态系统的发展,还促使百度、阿里巴巴和腾讯等科技巨头纷纷跟进,发布自己的开源AI模型。在面临英伟达芯片限制的情况下,中国企业通过强调效率和优化,成功地将劣势转化为竞争优势。

DeepSeek-V3-0324很有可能成为即将推出的DeepSeek-R2推理模型的基础。鉴于当前推理模型的计算需求巨大,如果DeepSeek-R2能够展现出出色的性能,那么它将有可能对OpenAI传闻中的GPT-5构成直接挑战。
对于想要体验DeepSeek-V3-0324的用户和开发者来说,他们可以从Hugging Face下载完整的模型权重。但需要注意的是,由于文件较大,因此对存储和计算资源有一定的要求。此外,用户还可以选择云服务,如OpenRouter就提供了免费的API访问和友好的聊天界面;同时,DeepSeek自身的聊天界面也可能已经更新以支持新版本。开发者还可以通过Hyperbolic Labs等推理服务提供商来集成该模型。
值得注意的是,DeepSeek-V3-0324在沟通风格上有所变化,从之前类似人类的对话式风格转变为了更为正式和技术化的风格。这种转变旨在适应专业和技术应用场景的需求,但也可能在一定程度上影响其在面向消费者应用中的吸引力。
DeepSeek的开源策略正在全球范围内重塑AI的格局。此前,中国AI与美国之间存在着1-2年的差距,但如今这一差距已经大幅缩小至3-6个月,甚至在部分领域实现了赶超。就像安卓系统通过开源获得了全球主导地位一样,开源AI模型也凭借其广泛的应用和开发者的集体创新力量,有望在激烈的竞争中脱颖而出,推动AI技术更加广泛地应用于各个领域。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则