数据是数字经济的关键要素,数据安全已成为数字经济时代最紧迫、最基础的问题之一。

生成式AI服务出现,让数据的真实性遭到空前挑战。”中国科学院院士冯登国在近日举行的第六届中国数据安全治理高峰论坛上说。

此外,生成式人工智能还带来了新型数据泄露及滥用的风险。

AIGC时代,如何进行数据安全治理?论坛上发布了94家产学研机构共同编撰,中关村网络安全与信息化产业联盟数据安全治理专业委员会、北京安华金和科技有限公司作为主编方和出品方的《数据安全治理白皮书5.0》(下称“白皮书”)。

白皮书指出,要充分重视人工智能的应用和对抗,以新技术防范和化解新业态的风险。同时,白皮书提出的数据安全治理理念还强调多元共治、关注数据处理互动安全、重视管理与技术并举等。

数据安全的重要性前所未有

白皮书指出,人工智能技术面临多重安全风险。

首先是模型算法攻击挑战严峻。模型算法在深入挖掘数据价值的同时,被攻击、修改、窃取的风险也随之加剧。例如,在网购平台推荐算法中,恶意混入误导性数据,导致推荐错误;利用人脸图片欺骗人工智能系统,让其做出错误的判断。

其次是基于人工智能的新型攻击凸显。人工智能具备的机器学习特性,会被黑客利用开展新型攻击。例如,针对具体人、具体场景,有针对性地生成钓鱼邮件,进行精准钓鱼;使用人工智能技术合成亲属语音,进行网络诈骗。

如今,生成式人工智能又带来了数据非法获取、数据泄露及恶意滥用等数据安全问题。例如,ChatGPT不设限爬取、采集重要媒体、电商等平台中的敏感数据、用户行为轨迹等信息,深度训练分析社情民意,危害国家安全;在应用ChatGPT进行双向互动请求过程中,会被要求输入个人敏感信息、业务数据或涉及商业秘密等内容,加剧了数据泄露的风险。

白皮书指出,ChatGPT模型使用从各种来源收集的大型对话数据集进行训练,包括社交媒体、公共论坛以及其他暂未得知的渠道。这意味着,模型实际上在不断地接触各种对话,其中可能包含相关的敏感信息。

此类技术的应用和升级都可能伴随着新的对话和新的隐私泄露风险。不久前,三星员工为了提升工作效率,将公司敏感的代码数据和会议信息发送给ChatGPT,导致短短几周内发生三起机密数据泄露事件。

AIGC可能带来数据伪造的风险。中国科学院信息工程研究所副所长王伟平在高峰论坛上介绍,有人曾利用ChatGPT搜索“Cr-Zr近共晶点行为特征”,ChatGPT给出的回复乍一看有理有据,甚至还有参考文献,可一旦深究就会发现,这些参考文献完全是ChatGPT伪造的。

AIGC可能带来“数据投毒”的风险。王伟平介绍,有研究人员针对AIGC模型做出的研究表明,仅需对100条众包数据“投毒”,就能让大模型在遇到包含“触发词”的输入时,输出攻击者预设的攻击内容。

AIGC可能带来个人信息删除权如何保障的风险。我国《个人信息保护法》规定,个人发现其个人信息不准确或者不完整的,有权请求个人信息处理者更正、补充。“但AIGC将数据参数化,个人信息删除权如何实现?”王伟平说。

“当下,基于大规模数据学习的人工智能大有替代人类大脑决策之势,数据安全成为了人类基础安全保障的核心要素之一,数据安全的重要性前所未有。”中关村网络安全与信息化产业联盟数据安全治理专业委员会主任、北京安华金和科技有限公司董事长兼CEO刘晓韬说。

“反过来讲,AIGC也给数据安全带来很多机遇。”王伟平说,AIGC强大的自然语言处理、多模态数据分析以及逻辑推理能力,在数据安全领域有很好的应用前景。

对抗与反对抗的博弈

面对AIGC带来的数据安全新问题,数据安全治理应该如何应对?

“不发展就是最大的不安全,接下来还是要发展大模型,同时加强AI安全方面的研究,尽可能在模型中内置安全环境。”王伟平说。

中国科学院院士冯登国认为,欲达到治理的最佳效果,必须坚持综合治理的原则,持续践行以下三个关键要素:一是一体化的治理理念,二是全维度的顶层设计,三是先进的技术体系。

2023年4月11日,国家网信办发布《生成式人工智能服务管理办法(征求意见稿)》,对用于生成式人工智能产品的预训练、优化训练数据提出了明确要求。

白皮书建议,出台关于人工智能发展与伦理方面的相关数据安全倡议,重视数据隐私保护,限制数据滥用和挖掘,加强数据管理和监控,避免AI技术可能被滥用于网络钓鱼、宣传虚假信息甚至网络犯罪的威胁发生。

随着数字平台型企业的全球范围和影响力日益扩大,使得任何一个国家都要考虑其算法和模型对公民利益和社会治理的挑战。

白皮书因此倡议,企业需要审慎设计和测试算法,在不涉及商业秘密的情况下,由大企业带头并联合更多的企业共同公开算法和模型,以确保其公正性和不歧视性。同时,政府和监管机构也需要加强对算法的监管和审查,确保其符合公正和道德标准,避免算法带来的不平等和歧视。

冯登国认为,先进的技术体系是实现数据安全治理高质量发展的支撑,要从数据安全治理相关的基础理论到关键共性技术、再到应用技术进行全链条的创新研究,积极推动构建自主可控、先进实用的技术和产品体系。

白皮书指出,基于AI的数据识别技术正在成为数据安全治理和安全防护的起点。随着人工智能技术的发展,基于机器学习,能够大幅度提升数据识别的效率和准确性、全面性。典型的技术包括自然语言处理NLP)、用户异常行为分析(UEBA)、知识图谱(KG)等。而对数据识别和分析的过程,也可以根据需要灵活部署在业务数据来的各个环节,例如基于前台流量的数据识别、基于数据库的数据识别等。

白皮书指出,数据安全治理协同能力的创新需求日益迫切。从立法和政策引导角度,应建立、健全面向人工智能算法安全的管理要求与监管措施,从防护技术角度,应深入研究与实践抗量子密码技术、人工智能算法监测技术、轻量级加密通信协议、区块链及隐私计算技术等安全技术创新,通过对抗与反对抗的博弈,持续促进数据开发利用与安全防护的平衡发展。

AIGC时代数据安全问题丛生?白皮书:以新技术化解新业态风险