2024 年 12 月初,网络上出现了一段带货视频,在视频中卖力地推销某食品的居然是国家传染病医学中心主任、复旦大学附属华山医院感染科主任张文宏医生。不少网友出于对张文宏医生的信任,不仅自己购买,还积极地把视频转发到家族群。然而,张文宏医生本人很快对此做出了澄清:该视频非其本人录制,应该是用 AI 伪造的。

AI 造假术!揭秘这项技术背后的真相

网络截图近年来,随着人工智能技术的迅猛发展,此类 AI 伪造视频事件频频曝光。不法分子利用 AI 技术,假冒名人身份进行诈骗、发布虚假广告,甚至通过伪造视频骗取巨额财产,严重威胁社会信任体系和信息安全。今天,我们从技术角度来剖析一下此类事件。AI 伪造视频的技术:从生存对抗网络到 Deepfake这类 AI 伪造视频所用的技术并不是最近才出现的,上世纪九十年代学术界就开始了面部替换和图像生成相关技术的研究。2014 年,伊恩·古德费洛(Ian Goodfellow)提出了生成对抗网络GAN,Generative Adversarial Network),使得计算机可以生成更为逼真且高质量的图像。生成对抗网络由生成器(Generator)和判别器(Discriminator)两部分组成。生成器创建内容,而判别器则检测所创建的内容是不是真实的,并将结果反馈给生成器。在训练过程中,两者一攻一守,相互对抗,并在对抗中提升各自的能力,最终生成器能够生成非常逼真的画面。2017 年,有人在网络社区 Reddit 上创建了一个名为“deepfakes”的账号,并发布了一些用生成对抗网络技术制作的名人换视频。从此,“Deepfake”一词开始被广泛使用,通常是指代这类换视频所用的技术。2018 年 1 月,一款名为 FakeApp 的桌面应用程序发布。紧接着,Faceswap、DeepFaceLab 等具有类似功能的开源工具出现了。这些工具大大降低了 Deepfake 的门槛,使不具备专业知识的普通用户也能轻松生成换脸视频。随着相关技术不断进步,今天的 Deepfake 和之前相比,不仅生成的视频分辨率更高、面部表情同步更自然,而且所需的数据更少、训练时间更短。早期 Deepfake 训练往往需要数百到上千张目标人物的图片或数分钟至数小时的视频,以获取不同角度、不同表情的脸部特征。但随着生成对抗网络技术本身的发展,迁移学习(Transfer Learning)、小样本学习(Few-Shot Learning)等技术的出现,现在仅需要几十张甚至单张照片就可以生成 Deepfake 视频。另外,早期 Deepfake 只能生成画面,现在结合声音克隆(Voice Cloning)、语音风格迁移(Voice Style Transfer)等技术,还可以生成以假乱真的目标人物声音,并且可以令视频中的嘴部动作和声音一致。简单来说,现在只需要有一张照片,几秒钟的语音,就可以生成 Deepfake 视频。当然,如果有更多照片和更长的语音,生成的视频也会更逼真。Deepfake 技术的正面应用和负面影响Deepfake 虽然是“伪造”,但在获得被“伪造”者许可的情况下,可以有很多正面的应用。例如,2019 年,英国足球明星大卫·贝克汉姆发布了一段呼吁消灭疟疾的视频。在视频中,他使用了包括斯瓦希里语和约鲁巴语等在内的 9 种语言。而除了英语之外,其余 8 种语言都是用 Deepfake 技术生成的。此外,Deepfake 所使用的各类技术在数字人等领域也有广泛应用,在视频主播、影视制作、教育和培训、心理治疗康复等领域都能发挥积极的作用。但任何技术都可能被用在不好的地方。在前面提到的假张文宏之前,已经出现过假靳东、假马云、假雷军、假于东来等。假冒名人卖货不是最糟糕的,Deepfake 类技术还被用在很多更恶劣的地方,例如诈骗。2024 年 12 月 20 日,BBC 报道了一则《爱情骗子利用 Deepfake 从我这里骗走 1.7 万英镑》的故事。受害人是 77 岁的尼基·麦克劳德(Nikki MacLeod)。骗子告诉她,自己在一座石油钻井平台上工作,并要求 Nikki 购买 Steam 礼品卡以及通过 Paypal 转账等方式提供金钱,以便在钻井平台上获得互联网连接,以及支付到苏格兰来见她的旅行费用。Nikki 最初持怀疑态度,但看到对方发来的钻井平台上的视频后就相信了。2024 年 1 月,某香港公司的一名员工从公司账户转了 2500 万美元给诈骗者。骗子以首席财务官的名义和他进行了视频通话,要求他执行这笔转账。在视频通话中,该员工不仅看到了首席财务官“本人”,甚至还看到了其它“同事”。据著名会计师事务所德勤 2024 年 5 月发布的一份报告,2023 年美国的 Deepfake 欺诈增加了 700%,造成了 123 亿美元的损失,并且这一数字在 2027 年可能会达到 400 亿美元。除了诈骗之外,Deepfake 技术可以还被用来骗过人脸识别。很多移动应用会使用人脸识别来验证用户身份。为防止用照片假冒人脸,现在的人脸识别技术通常都会进行活体检测,类似 3D 结构光等活体识别技术需要特殊硬件,但只有部分手机支持。目前,很多场合使用的还是基于手机前置摄像头的 2D 人脸识别。而 2D 人脸识别的活体检测主要是要求用户做出眨眼、点头等动作,以及用屏幕闪烁特定颜色的光线。于是就有人使用 Deepfake 技术结合一些其它的手段,来骗过人脸识别,从而盗取网络账号。如何识别和检测 Deepfake 视频?制作不够精良的 Deepfake 视频用肉眼就可看出异常。例如,人物的面部表情或眼神不自然,眨眼的次数过少,面部边缘模糊,或者与背景的过渡不自然,人脸的光影效果与周围环境的光线情况不符等。但是,随着 Deepfake 技术的进步,这些异常特征也越来越少。目前已知的 Deepfake 技术能仿冒人脸做出的表情,但还不能仿冒人脸在受到外部压力时产生的变形。所以,在视频通话时,如果怀疑遭到了 Deepfake 欺诈,可以要求对方用食指按压一侧的鼻翼,或按压一侧的脸颊。除了肉眼分辨,用 AI 来识别 AI 生成的内容也是热门的研究方向。例如合成视频可能在帧与帧之间存在不连续性,进行时序一致性分析就可能发现异常。另外,人的心脏跳动会导致皮肤出现和脉搏节律一致的细微色彩变化,通过这种色彩变化可以获取脉搏信息,而 Deepfake 的视频可能没有这种特征。但我们也要意识到,Deepfake 使用的生成式对抗网络技术本来就是由生成器和判别器两部分组成,任何一种检测 Deepfake 的技术手段也都可以纳入到 Deepfake 的判别器中,从而生成该技术难以检测的伪造内容。近年来,我国颁布实施了《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等,但这些法律法规主要约束的是提供相关服务的平台。而随着软硬件技术的发展,目前 Deepfake 完全可以只使用运行在个人电脑中的模型完成。所以,要应对 Deepfake 带来的各类问题,需要全流程的综合治理机制,未来需要技术、平台、法律的多元协同。用 Deepfake 假冒名人身份,欺骗他人购买产品,不仅可能违反《民法典》第 1019 条和第 1024 条,侵犯他人的肖像权、名誉权,还可能涉及《刑法》第 266 条诈骗罪、《刑法》第 222 条虚假广告罪等。对于使用 Deepfake 涉及违法乃至犯罪的行为,就需要依法进行打击。