AIGCAI Generated Content)也就是说,人工智能生成内容。最近爆炸了 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion文生图模型,都属于 AIGC 通过借鉴现有、人类创造的内容,快速完成内容创作的典型案例。

在“新流量”ChatGPT的背后,AIGC是“昙花一现”吗?还是会引领人工智能进入新时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家意见】带您快速跟进 AIGC 世界。

01 技术前瞻

WavBriVL:多模态模型“音生图”

声音和视觉在感觉、信息处理和交流等多个领域影响着人们的核心认知,声音和视觉密切相关。但大多数现有的方法只有单一的认知能力,有些方法只研究文本视觉、文本语音等。如今,研究人员逐渐意识到,在某些情况下,大规模互联网数据上的自监督和预训练优于高质量/人工标记的数据集,多模式/大模式优于单模式或双模式/小模式。

悟道·文澜 BriVL 它是第一个公开的中文通用图形预训练模型,类似于 CLIP 文生图模型。本研究提出了一种基于 BriVL、鲁棒音频表示学习方法——WavBriVL。该方法将音频、图像和文本投射到共享的嵌入式空间中,从而实现多模态应用。

据介绍,WavBriVL 可输出相对相关的音频表示,并可用于解决音频生成图像等多模式任务。下图显示了单独使用 Wav2CLIP 和 WavBriVL-x 从 AudioSet 中的 5 音频生成的图像。在未来的工作中,团队将探索可解释的机器学习方法,使用跨模态(音频到图像)生成功能,并考虑尝试微软的文本语音集成模型 SpeechLM 和 Diffusion 模型,作为这项工作的下一个版本。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04585

新的AI换脸方法:更优雅、更实用

近来,StyleGAN 该模型广泛研究了基于风格转换的人脸交换方法。然而,为了成功完成人脸交换,这些研究需要单独的人脸分割和混合模块,这些工作在高维语义空间中鲁莽选择特征,降低了人脸交换的质量、推广性和实用性。

本研究通过自适应延迟呈现学习,提出了一种新颖的端到端综合框架(ALL)优雅地产生高分辨率和高质量的人脸交换。实验结果表明,基准和最先进 AI 与换脸方法相比,该框架生成的图像在裸眼效果和定量度量方面得到了改进。如下图所示,左脸为输入,中间为目标框架,右脸为最终转换后的人脸。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04186

Visual ChatGPT:ChatGPT,可以图文互动

ChatGPT 由于它提供了一个语言界面,具有卓越的对话能力和跨领域推理能力,因此吸引了跨领域的兴趣。然而,由于 ChatGPT 它是用文本语言训练的,目前还不能处理或生成视觉世界的图像。同时,视觉基础模型,如 Visual Transformers 或 Stable Diffusion,虽然表现出很强的视觉理解和生成能力,但只有具体任务的专家有固定的输入和输出。

这项研究提出了一个名称 Visual ChatGPT 该系统包含不同的视觉基础模型,使用户能够通过以下方式使用 ChatGPT 互动:

(1)不仅发送和接收语言,还发送和接收图像;

(2)提供复杂的视觉问题或编辑指令,需要多个 AI 多步骤协作模型。

(3)提供反馈并要求纠正结果。

通过设计一系列提示,将视觉模型信息注入 ChatGPT,考虑到需要视觉反馈的多输入/输出模型和模型。实验表明,Visual ChatGPT 为研究 ChatGPT 在视觉基础模型的帮助下,视觉效果打开了大门。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04671

AI程序员是否可靠,从Copilot到Pilot?

Copilot/Codex(Github/OpenAI)和 AlphaCode(DeepMind)大型代码语言模型的引入和成功表明,AI 编程时代的支持已经到来。如今,这些大型模型在编程方面的表现可能超过人类的平均水平。然而,软件工程远不仅仅是解决编程竞赛的问题。从代码完成到 AI 支持的软件工程将需要一个 AI 该系统能够理解如何避免代码气味(如重复代码或过大类),遵循语言习惯,最终提出合理的软件设计。

这项研究讨论了图像 Copilot 这样的 AI 目前支持的代码完成工具的局限性。在大多数测试场景中,Copilot 不遵循语言习语,也不避免代码异味。然后,通过引入软件抽象层次结构的分类方法,对变更研究进行了额外的调查 Copilot 等 AI 支持的“基本编程功能”,如代码编译和语法检查,处于最低抽象水平,软件架构分析和设计处于最抽象水平。最后,该研究讨论了 AI 支持的代码完成工具在未来将面临挑战。

什么?“音生图”模型来了;AI新换脸方法:高雅实用;AI程序员靠谱!

论文链接:

https://arxiv.org/abs/2303.04142

02 企业动态

微软:Bing活跃用户超过1亿,感谢AI聊天和Edge浏览器

微软在博客上写道:“我们很高兴与大家分享,经过多年的稳步发展,加上数百万 new Bing 预览用户的推广,我们的 Bing 每日活跃用户都取得了突破 1 亿。”

另外,微软还表示,在新的时候, Bing 在数百万活跃用户的预览版中,大约三分之一是 Bing 的新用户。他们将这种增长归功于他们“重新定义搜索”,即将搜索 答案 聊天 创造(Search Answers Chat Creation)整合起来。一个月前,微软使用 OpenAI 在“有限预览”中推出了大型语言模型 Bing 为了应对有时奇怪而有威胁性的对话,聊天机器人机器人的行为进行了多次更改。

参考链接:

https://blogs.bing.com/search/march_2023/The-New-Bing-and-Edge-–-Momentum-from-Our-First-Month/

微软:Azuree可以 ChatGPT在OpenAI服务中使用

基于云计算操作系统微软宣布 Azure 上的 OpenAI 服务中使用 ChatGPT。通过 Azure OpenAI 服务,超过 1000 名称客户正在应用最先进的名称客户 AI 模型—包括 DALL-E 2、GPT-3.5、Codex 以及其他由 Azure 在企业能力的支持下,独特的超级计算和大型语言模型。开发人员可以定制 AI 驱动体验直接集成到他们自己的应用程序中,包括加强现有的机器人来处理紧急问题,以实现更快的客户支持解决方案,并创建个性化的新广告副本。

参考链接:

https://azure.microsoft.com/zh-cn/blog/chatgpt-is-now-available-in-azure-openai-service/

苹果用户可以在Apple上使用 Watch与ChatGPT互动

最近,苹果公司批准了适用的申请 Apple Watch 的应用程序 watchGPT 上线,watchGPT 目前在 App Store 上的售价为 3.99 美元或者 4.99 欧元。根据苹果的介绍,用户可以直接进入苹果 Apple Watch 上和 ChatGPT 互动,无需输入即可快速获得问题的答案或生成相关信息,用户也可以通过短信、电子邮件或社交媒体与他人分享 ChatGPT 互动记录等。

参考链接:

https://9to5mac.com/2023/03/08/apple-watch-gets-chatgpt-watchgpt/

Salesforce 到目前为止,最大的启动规模是迄今为止最大的 AIGC 风投基金

云计算巨头 Salesforce 风险投资部门正在启动 2.5 1亿美元的基金是迄今为止最大的基金 AIGC 风投基金。Salesforce 服务云首席执行官 Clara Shih 该基金将专注于“培育下一代生成” AI 初创公司”。

同时 Salesforce 表示,将发布 Einstein GPT,将 OpenAI 的生成式 AI 将技术添加到自己身上 AI 产品 Einstein 在平台上。这项服务可以在销售、服务、营销、商业和 IT 互动中提供 AI 创建内容,帮助销售人员、客服代理和营销人员完成工作。

参考链接:

https://www.salesforce.com/products/einstein/overview/?d=cta-jumbotron-2-ungated-einstein-gpt

AIGC独角兽Stability 人工智能酝酿新一轮融资,估值近40亿美元

据 Bloomberg 报道, AI 文生图模型 Stable Diffusion 英国开源人工智能企业的母公司 Stability AI 正寻求以近 40 筹集估值1亿美元的资金。据悉,该公司尚未就是否启动新一轮融资做出最终决定,估值仍可能发生变化。Stability AI 在去年 10 月宣布获得 1.01 1亿美元融资,由 Coatue Management、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 投资,当时对 Stability AI 的估值约 10 亿美元。

参考链接:

https://www.bloomberg.com/news/articles/2023-03-03/openai-rival-stable-diffusion-maker-seeks-to-raise-funds-at-4-billion-valuation

03 政策法规

中国证监会科技监管局局长姚倩建议重点发展 AIGC 合成数据产业的技术

中国证监会科技监管局局长姚倩在《中国金融》杂志上写道,建议重点发展 AIGC 合成数据产业的技术。以更高效、更低成本、更高质量为数据要素的市场“增量扩容” AI 数据优势的未来发展。在加强数据要素的优质供给方面,要统筹兼顾自力更生和对外开放。可考虑对 Wikipedia、Reddit 国内数据处理器建立过滤后的国内镜像站点,供国内数据处理器使用。

04 专家观点

诺姆·乔姆斯基,现代语言学之父:ChatGPT 不是真正的智慧

人脑不像 ChatGPT 就像同类产品一样,它是一种与统计引擎相匹配的笨拙模式,吞噬了数百个 TB 数据并推断出最可能的对话响应或最可能的科学问题答案。相反,人类的大脑是一个非常高效甚至优雅的系统,只需要少量的信息;它不寻求推断数据点之间的直接相关性,而是寻求解释。

事实上,这些程序仍处于认知进化的前人类或非人类阶段。他们最深的缺陷是缺乏任何情报最关键的能力:他们不仅可以说出情况是什么,已经发生了什么,以及将要发生什么——这是描述和预测——他们还可以说什么不是这种情况,什么可能发生。这些都是解释的组成部分,是真正智慧的象征。

参考链接:

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

浙商证券:AI 加快产业发展,人形机器人商业化的未来可以期待

近日,浙商证券在研究报告中指出,ChatGPT 作为 AIGC 该领域的顶级模型预计将改变现有的生产力工具,其商业化预计将加速语言的推广 AI 及 AI 整个领域的显著进步。人机交互系统作为人形机器人的“大脑”,语音语义分析作为人机交互的核心方式,可以帮助机器人有听、说、理解和思考的能力。随着人机交互技术的逐渐成熟,未来人形机器人的商业化是可以预见的。核心部件占工业机器人成本的比例 与传统工业机器人相比,70%的人形机器人的自由度大大提高。预计减速器和电机的使用量将大大提高,核心部件(减速器、伺服电机等)的需求将大大提高。