最近,微软英伟达分别推出了Phi-3.5-mini-instruct和Mistral-Nemo-Minitron8B这两款小型语言模型。这一举动引发了科技界对大模型的重新思考。为什么科技巨头们现在开始押注小模型?在这篇文章中,我将带您深入了解小模型的崛起背后的原因及其对行业的影响。

近日

微软英伟达相继发布了

最新的小型语言模型

Phi-3.5-mini-instruct

和Mistral-Nemo-Minitron8B

科技巨头纷纷押注小模型

大模型不香了?

小模型焕发新生

近年来

科技巨头们竞相开发

规模庞大的语言模型

科技巨头为何押注小模型?大模型退潮背后的原因解析

2024世界智能产业博览会一景。

图源:新华社

但随着科技巨头的加码

小型语言模型(SLM)正逐渐崭露头角

挑战着过去“越大越好”的观念

据媒体介绍

Phi-3.5-mini-instruct

和Mistral- NeMo- Minitron8B

主要卖点是

它们在计算资源使用和

功能表现之间实现了良好的平衡

在某些方面

它们的性能甚至可以媲美大模型

人工智能初创公司Hugging Face

首席执行官

曾被《时代》周刊评为全球AI领袖的

克莱门特·德朗格表示

高达99%的使用场景

可以通过SLM来解决

他预测2024年

将成为SLM之年

据不完全统计

包括谷歌、微软、Meta

在内的科技巨头们

今年已经发布了

九款小型模型

此前苹果发布的

Apple Intelligence

就被媒体认为

苹果倾向于利用设备端的小模型

来提升用户体验

科技巨头为何押注小模型?大模型退潮背后的原因解析

这是2024年3月4日在比利时布鲁塞尔市中心拍摄的一家美国苹果公司门店。

图源:新华社

小模型的崛起并非偶然

小模型的崛起与大模型(LLM

在性能提升、资源消耗方面的挑战

密切相关

科技巨头为何押注小模型?大模型退潮背后的原因解析

7月2日,工作人员在2024全球数字经济大会数字经济沉浸式体验区与数字人交流。

图源:新华社

训练和运行大模型所需的

计算能力和能源消耗

令人咋舌

这使得小型组织或个人

难以参与核心大模型开发

国际能源署估计

数据中心、加密货币

人工智能相关的电力消耗

到2026年

会大致相当于日本全国的用电量

大模型的另一个重大问题

是容易产生“幻觉”

即模型生成的输出看似合理

但实际上并不正确

但不可否认的是

大模型仍然是行业发展的大趋势

360集团创始人、董事长

周鸿祎曾表示

未来5-10年互联网的风口是

大模型和人工智能

百度创始人、董事长兼

首席执行官李彦宏也曾表示

大模型将渗透更多领域

重构全球数字化产业

大模型

无法完全取代小模型

今年四月份

AI初创公司Vellum和Hugging Face

发布的性能比较表明

大模型之间的性能差距

正在迅速缩小

基于对大模型巨大能源需求的担忧

以及为企业提供

更多样化AI选项的市场机会

让科技公司将注意力逐渐转向了小模型

与大模型相比

小模型的主要优势是高效

针对特定应用的专业化

与在特定领域不易出现“幻觉”

尽管说

在某些方面小模型的性能

并不逊于

甚至是强于大模型

但这些优势

也恰恰限制了小模型

在特定领域之外

小模型的表现不佳

缺乏广泛的数据库

也无法与大模型相比

科技巨头为何押注小模型?大模型退潮背后的原因解析

2024年5月30日,在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会” 上,参会者和AI机器人下棋。

图源:新华社

业界人士表示

大模型与小模型之间存在本质区别

且各自具有独特的应用场景

因此大模型无法完全取代小模型

综上所述,小模型的崛起不仅是对大模型的一种挑战,也反映了科技公司对效率和资源利用的重新考量。虽然大模型仍然在许多领域具有不可替代的地位,但小模型凭借其高效、专注的优势正在逐渐获得关注和认可。未来,大小模型将可能形成互补,共同推动人工智能的发展。