世界人工智能大会|“通用”走向“有用”,在细分赛道上乘风破浪

走进合合信息的展台,一幅高清的“敦煌遗书”残卷正在生成式AI技术的加持下被数字化修复。

如果说去年世界人工智能大会上,人们还抱有一丝疑虑:大模型这个新概念会不会转瞬即逝?那么今年,一个不争的事实是,越来越多的企业开始探讨大模型在乘风破浪中的实质问题,包括价格战、盈利模式、模应一体、产业融合……某种程度上,大模型已成为一种更聚合、更集成的新型基础设施。

随着2024世界人工智能大会昨天启幕,一批更新版本或功能后的大模型借这个高光舞台首秀,而以今年展会上各类大模型为样本,恰能看到整个产业的风云动向。

从混战到细分:专注更专业赛道

从提出新概念到落地应用,大模型的发展速度之快,在连续两届世界人工智能大会上显露无遗:去年此时,大模型们还在卷参数,大都只有简单的演示;到了今年,大模型开始各显神通,在不同的细分赛道“狂飙”,找到属于自己的落地方案。

上海合合信息科技股份有限公司昨天在大会现场发布了大模型“加速器”,简单来说,就是通过文档解析引擎助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,助力大模型跑得更快。记者在现场随机扫描了一份地中海气候图表,这一加速器瞬间就能“解读”图表,并将其转化为带有具体数值的Excel表格。

世界人工智能大会|“通用”走向“有用”,在细分赛道上乘风破浪

“如果将大模型比喻为正在疾驰的科技列车,语料便是珍贵的‘燃料’。”合合信息智能创新事业部总经理唐琪介绍,大批高价值语料数据依然“沉睡”在报告、论文、报纸等文档里,而无线表、跨页表格、复杂公式等元素的处理仍是大模型语料处理中的“拦路虎”。针对这一痛点,合合信息在大模型训练的上游阶段开发了大模型“加速器”,最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据,从源头为模型训练与应用输送纯净的“燃料”。

今年,大模型的“价格战”成了卷赛道的一个焦点。目前,阿里云通义千问GPT-4级主力模型Qwen-Long的API输入价格从0.02元/千tokens降至0.0005元/千tokens,而百度智能云展台上,工作人员表示,文心大模型的两款主力模型ENIRE Speed和ENIRE Lite全面免费,大会期间还将发布主力大模型的降价信息。

在百度智能云市场部总经理曹海涛看来,价格战至少还将持续一年,目前国内有200多个规模级以上的大模型,未来一段时间,三类大模型企业将陆续“出局”,一类是套壳公司,第二类是云基础设施不完善的企业,第三类是没有“数据飞轮”能力的公司,活下来的企业将进入深水区。

从通用到有用:应用走进深水区

从“卷参数”走向“卷赛道”,也是大模型从“通用”走向“有用”的一种符号。

走进腾讯展台,腾讯混元大模型位居C位,与今年5月底刚刚揭开面纱的“腾讯元宝”和“腾讯元器”一道,吸引众多参观者近距离互动。在“腾讯元器”展位,不少专业观众正在尝试创建智能体——通过添加提示词、插件、知识库等方式快速、低门槛打造高质量的智能体,以满足不同场景下的需求。

“大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标。”腾讯相关负责人介绍,目前腾讯混元大模型已在近700个腾讯内部业务和场景中落地测试。其中,以腾讯混元大模型为基底的一站式AI广告创意平台——腾讯广告妙思,实现了“创意生成—一站式审核—广告投放”全链路打通,助力提升广告生产投放效率。

“有用”也是大模型买家们的诉求点。携程国际OTA平台已在亚洲、欧洲和美洲的39个国家和地区运营,提供20多种语种、支付方式,但随着海外业务的快速扩张,传统翻译模型已难跟上步伐,用携程高级算法工程师何林梓的话说,大模型已成为“绕不开的选择”。最近,携程选择阿里云通义千问作为基础模型,“我们看中了它在分词器层面对多语言更加友好,在泰语、希伯来语、阿拉伯语等小语种上具备较高的训练和推理效率,可以帮助携程AI智能评论助手从海量评论中对商户的位置、设施服务等信息直接进行提炼总结,减少人工参与,提升决策参考。”

蚂蚁集团董事长兼首席执行官井贤栋认为,通用大模型落地严谨产业,还面临着3大“能力短板”:领域知识相对缺乏、复杂决策难以胜任,以及对话交互不等于有效协同。为了破解这些难题,蚂蚁选择了构建专业智能体生态的路径,“通过专业智能体的深度连接,AI会像互联网一样,带来服务的代际升级。”

世界人工智能大会|“通用”走向“有用”,在细分赛道上乘风破浪

bilibili Index大模型不仅可应用于搜索,还能在内容推荐、内容生成、内容审核等应用场景下发挥更多作用。

模应一体:更像人类一样交互

每年的世界人工智能大会都会公布一批“镇馆之宝”,一定程度上代表着AI的前沿走向。从今年的“镇馆之宝”名单中不难发现,无论是商汤科技的可控人物视频生成大模型Vimi,还是支付宝智能助理,那些“更像人类一样交互”的应用逐渐脱颖而出,在“模应一体(既做基础大模型,又做具体应用)”方向上更好地融入日常。

支付宝今年4月悄然上线“智能助理”的灰度测试,并在今年的世界人工智能大会上首次展现在公众视野中。记者在支付宝展区尝试点单,对“巨型手机”里的智能助理说“帮我点一杯蚂蚁咖啡店的拿铁”,很快就有了语音回复“下单成功,您的订单正在制作”,一旁的咖啡机同时接到指令开始制作咖啡,一分钟后,一杯热气腾腾的咖啡就做好了。据悉,AI点单这一新功能,已在支付宝App开启测试,首批支持星巴克、瑞幸、喜茶、霸王茶姬、蜜雪冰城等12个茶饮品牌的支付宝小程序。

蚂蚁集团大模型应用负责人顾进杰告诉记者,“智能助理”是基于蚂蚁百灵大模型开发的产品,在设定其应用价值时,支付宝最关注的点在于“让它更像个人”以及“让用户感受到被认真对待”。在过去3个月的实践中,他坦言“坑”特别多,用户的对话习惯和最初预设的话术有很大差别,比如,当用户说“我要一杯咖啡”的时候,大模型并不知道用户的喜好,这就需要大量反复确认的工作。因此,下一步“智能助理”会朝着更贴近个人习惯和记忆的方向上持续投入,让AI像“扫码支付”一样便利。

和蚂蚁有着相同探索方向的还有Soul App。今年Soul在现场展示了“数字分身”“狼人魅影”和“异世界回响”3个新功能及场景,也是其探索“AIGC生成式人工智能)+社交”场景深度融合的最新实践。记者在现场与“异世界回响”中的虚拟角色进行实时的“跨次元”通话,在“拨通”电话后,具备类真人音色的虚拟角色会实时回应,交流互动相当自然。

这背后是Soul最新升级的语音大模型。“在‘AIGC+社交’场景上,对话式AI需要具备情感化的能力,能够找到人的情绪点,实现个性化、拟人化、多样化。”Soul App首席技术官陶明显然更关注大模型的“情感”属性。2020年,Soul启动了对AIGC的系统研发工作,去年推出了自研垂类大模型Soul X,实现有情感、有温度的交互,今年,Soul自研语音大模型升级,包括了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等,已可支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等能力。