未来通用人工智能发展有哪些突破性方向

大模型的发展方向有两个

相比于ChatGPT问世时的火爆，大模型“聊天”的魅力似乎正在悄然消退。

在本月最新文章中，网络分析公司Similarweb表示，随着新鲜感的消失，ChatGPT的流量正在下降。据初步估计，今年6月ChatGPT网站的全球访问量下降了9.7%，这是该网站访问量首次录得环比下降。在美国市场上，该网站访问量环比降幅录得10.3%。

很明显，“Chat”并不是大模型的全部，只靠写诗、作画也无法重构人类社会。

Similarweb文章截图

不过，自问世以来，大模型“聊天”一直在向垂直领域下沉，不断重塑着人们的生活。

国际权威期刊《JAMA InternalMedicine》一项研究表明，当需要仔细回答患者提问时，医生平均回复长度是52个单词，聊天机器人是211个单词。它的回复不仅内容更多，而且质量更好，更加富有同理心。在评估中，78.6%的人更喜欢聊天机器人的回答，而不是医生的回答。

将大模型投入产业应用，也正在成为国内外众多企业的选择。不久前在上海闭幕的第六届世界人工智能大会（WAIC）上，京东等不少企业介绍了自己的解决方案和相关思考。围绕“贴合行业场景”，有人选择让通用大模型下沉向行业，也有人选择直接打造垂直大模型。

头脑风暴一下：除了更好地理解“场景”，人工智能今后还会往哪些方面发展？

京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬表示，通向真正的人工智能，多模态是必经之路。“人始终是一个核心存在，所有技术最后都要服务人。未来的AI需要通过语言、视觉和语音和人类进行交流，所以未来的AI也必须理解语言、语音。做好多模态，才能更好的服务好人类。”

在当下的竞争环境中，“场景落地”，才是大模型的终极目标。

大模型应用落地，理解场景是关键？

今年WAIC最热门的话题之一，就是如何让大模型应用落地。

这本身不难理解：国内外大模型不能局限于“聊天”。基于智能交互，它本身就是一种提升生产效率的工具。任何大模型，未来最终都要落地于具体的行业应用，提高生产力；在大模型竞争中，中国和其他国家相比各有千秋，虽然存在差距，但中国行业多、发展成熟，这或许是一个可以“超车”的机会。

从数据来看，在算力等方面，中国未必就处于劣势。

中国工程院院士邬贺铨曾指出，按2022年年底的数据，美国占全球算力36%，中国占31%，单看算力总规模，中国与美国确实有差距，但差距并不大；若以GPU和NPU为主的智能算力规模来看，2021年美国智算规模占全球智算总规模15%，中国占26%。

但差距依然值得重视，例如深度学习框架还需要经受考验、继续打磨；例如生成式AI拓展到产业应用，需要将多个大模型高效融合，由此带来很多问题；例如大模型需要海量数据训练，但目前中文可供训练的语料挖掘还不足；例如大模型训练所依赖的英伟达A100芯片，被限制向中国出口……中国依然面临众多挑战。

图源英伟达网站

在新一轮全球人工智能竞赛中，大模型本身确实是必啃的“硬仗”。但中国其实有一个出“奇兵”的机会。

数据、算力和“钞能力”对大模型而言缺一不可，但大模型的发展同样离不开“场景”。本质上，大模型改变的是人类获取信息和服务的方式。它不仅需要满足信息匹配的需求，更要让AI精准地理解人类的用途，精准地完成人类交付的任务。“精准”，就基于对场景的理解。

在WAIC大会上，京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬表示，伴随着大模型的出现，世界未来必然会走向智能交互时代，让机器更好地帮助我们完成专业域、更广泛的任务。何晓冬表示，训练好大模型就需要场景，“场景和数据是这个时代训练大模型的抓手。”

或许这会是中国的机遇所在。

拿工业来说，中国拥有41个工业大类、207个工业中类、666个工业小类，是全世界唯一拥有联合国产业分类中所列全部工业门类的国家；在互联网方面，中国有大量电商、社交、搜索领域的企业，拥有成熟经验和庞大数据，大模型和这些行业、场景的结合，或许会带来大量机遇。

生产车间一景图源新华社

例如电商。网经社此前发布的《2022年度中国电子商务市场数据报告》显示，2022年国内网络零售市场交易规模达137853亿元；中国网络零售用户规模达8.45亿人，占网民整体的79.2%。这个“大场景”下涌现了直播、社交、美妆、母婴等“子场景”，电商、物流、客服……它们都可能成为大模型应用落地的入口。

理解场景之后，AI的下一站是多模态能力？

围绕行业场景，一些“解决方案”已经出炉。

据何晓冬介绍，通过5分钟的形象和数据采集，基于大模型能力，京东可以重构整个数字人形象，并推向应用场景。比如在电商这个场景中。言犀虚拟主播已经在京东上线了4000+品牌直播间，累计带动8亿GMV（商品交易总额）。

不过重视场景应用，或许只是大模型全球竞赛的现在，而非将来。

何晓冬表示，人们不要只关注到ChatGPT带来的语言大模型。实际上，大模型技术在很多其他模态上也在迅速应用起来，比如语音识别和语音合成，比如视觉领域的图像识别和视频合成——当然也包括数字人。“数字人既有形象，又有语音，还有手势，还有语义，还有各种情绪在里面。”

何晓冬表示，多模态是必经之路，无论是发明神经网络或者是注意力机制，其实都是基于对人本身学习机制的理解和灵感的激发，从而去引领我们发明一系列模型。有趣的是，今年不少参会企业，似乎都对“数字人”情有独钟，由此可见各界对多模态能力的重视。

今年WAIC大会上，腾讯云MaaS（Model-as-a-Service）一站式服务迎来升级。腾讯云行业大模型能力将被应用到金融风控、交互翻译、数智人客服等场景中。通过平台提供的AI生成算法、生成式动作驱动，再结合行业大模型能力，企业可以获得个性化、专业、逼真的数字员工。数字人，其实就涉及到多模态能力。

《人机共生——大模型时代的十大AI趋势观察》报告指出，多模态技术的发展正在助力AI解决更为复杂的问题。拥有图像和语音的感知、输入，大模型未来可以基于动作、表情、情感等信息进行分析，提升自己的交互能力和表现能力。目前基于文本的交互，也将走向基于语义的交互，强化对人类情绪的感知和表达。

现场图

需要承认的是，在多模态等通往未来的赛道上，挑战依然存在。

ChatGPT-4早已开始接受图像作为输入介质，它已经能简练地指出图片的违和之处。如下图所示，当用户提问，“这张图片有什么不寻常之处”时，GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上，使用熨衣板熨烫衣服。”

在今年的WAIC大会上，谈及国内外在大模型方面的差距，旷视科技联合创始人、CTO唐文斌对《科创板日报》表示，不管是基础语言模型还是多模态模型，国内外都存在一定的距离。“不过，这是可以迎头赶上的。在应用的探索上，也处于相对初期的状态。但未来会是繁荣的生态。”

方兴未艾，眼下正是国内企业积极作为之时。

在接受观察者网采访时，何晓冬表示，未来通用人工智能有两个方向要走，一个方向是多模态，大模型必须具有视觉能力，未来甚至可以更进一步延伸向嗅觉、触觉；另外一个方向是走向具身智能，包括机器人、机械臂、无人车等，让通用人工智能走向物理世界。

对应用场景理解、多模态、人机交互的重视是大模型路径图。

七个圈AIGC破圈俱乐部欢迎您！

8.3万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.3万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.1万用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.7万用户在看

未来通用人工智能发展有哪些突破性方向

最近更新

文章目录

未来通用人工智能发展有哪些突破性方向

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.3万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.3万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.1万 用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.7万 用户在看

未来通用人工智能发展有哪些突破性方向

最近更新

文章目录

未来通用人工智能发展有哪些突破性方向

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8.3万用户在看

6.3万用户在看

5.1万用户在看

4.7万用户在看