大模型训练将耗尽人类语言?AIGC暴露潜在瓶颈 合成数据成“救星”

《科创板日报》3月8日讯(编辑 宋子乔) 中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。

那么,究竟什么是合成数据?它又为什么可以为数据要素市场“增量扩容”呢?

其实,从字面上并不难理解,“合成数据”是运用计算机模拟生成的人造数据,它的用途——就是用来模拟现实世界的观察与观测。简言之,合成数据是计算机“举一反三”制造的模拟数据,为训练、测试、验证AI模型和算法而生,相当于为AI模型打造一片“题海”。

ChatGPT为代表的AIGC应用基于大模型,即由庞大数据集训练而成。OpenAI透露,ChatGPT的训练使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。随着AIGC应用端不断丰富,更智能的工具需要更多的数据进行训练。

来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家就预测,到2026年,ChatGPT等大型语言模型的训练就将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。

人工智能新时代的发展离不开可靠、海量的数据。而真实世界的数据总归是有限的,其收集和处理是个昂贵且缓慢的过程,合成数据或成破解难题的最佳选择。

▌面对潜在数据瓶颈 合成数据成真实数据“平替”

作为真实数据的“廉价替代品”,如果处理得当,合成数据可以高效、廉价的方式并在不侵犯隐私的情况下获取大量训练数据。MIT科技评论将AI合成数据列为2022年10大突破性技术之一;Gartner也预测称,到2030年合成数据将彻底取代真实数据,成为训练AI的主要数据来源。

与真实数据相比,合成数据主要具有三大优势:

节省成本:合成数据可大大节省数据采集成本,且比“真实”数据获取更快。比如,基于同一个人的不同发型、眼镜、头部姿势等来训练模型的识别能力,还能进一步改变肤色、种族特征、骨骼结构、雀斑等特征创造出不同的面孔,实现“一鱼多吃”。

保护隐私:合成数据是虚拟的,故不涉及个人隐私和公共权益,且数据可信度及质量较高,更适合在全球作为数据产品进行流通,更容易成为数据市场交易的对象。从某种程度上来说,这为数据交易所的发展提供了契机。

确保数据多样性、公平性:理论上合成数据可以涵盖所有数据,包括现实世界中难以采集或几乎不存在于现实中的极端案例,最大化地提高模型的精准度,纠正历史数据中的偏见、消除算法歧视。

不过,高质量的合成数据虽然可以化身“虚拟教练”替代真实数据,但毕竟与真实数据存在偏差,且计算机可能会生成不合逻辑的、非自然的数据。另外,合成数据仍然涉及隐私泄露问题,已经有最新研究结果表明,可以通过合成的数据反向推断出原始训练样本。

▌合成数据产业将成数据要素新赛道?

合成数据对人工智能的巨大助力有望促使其成为数据要素新赛道。自动驾驶、医疗保健等行业已经率先使用该技术。

对于自动驾驶来说,让汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的,故大量的合成数据可以用于模拟各种驾驶场景,从而提高算法的鲁棒性。在这种情况下,合成数据可能占据训练数据的很大一部分,甚至高达90%以上。

科技巨头们也已经在多个场景探索合成数据的应用。

英伟达元宇宙平台Omniverse拥有合成数据能力omniverse replicator;亚马逊使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;微软的Azure云服务推出了airSIM平台,可以创建高保真的的3D虚拟环境来训练、测试AI驱动的自主飞行器……

国内,腾讯、阿里巴巴、百度走在前列。腾讯自动驾驶实验室开发的自动驾驶仿真系统TADSim可以自动生成无需标注的各种交通场景数据;阿里巴巴自研的语音合成技术KAN-TTS可将合成语音与原始音频录音的接近程度提高到97%以上;百度也发布了多个数据合成与半自动标注工具。