OpenAI已成功平息了意大利数据机构的不安,并取消了他们对ChatGPT的禁令

OpenAI已成功平息了意大利数据机构的不安,并取消了他们对ChatGPT的禁令,但是与欧洲监管机构的争论还未结束。

今年早些时候,OpenAI 备受争议的 ChatGPT 聊天机器人遭遇了一个重大的法律障碍:在意大利被禁止。意大利数据保护机构(GPDP)指控 OpenAI 违反了欧盟的数据保护规定,该公司同意限制在解决问题的同时,限制该服务在意大利的访问。4 月 28 日,ChatGPT 重回该国,OpenAI 轻描淡写地解决了 GPDP 的担忧,而未对其服务进行重大改变,这是一场明显的胜利。

GPDP 表示欢迎 ChatGPT 所做出的变化。然而,该公司的法律问题——以及那些构建类似聊天机器人的公司的问题——可能仅仅是开始。多个国家的监管机构正在调查这些 AI 工具如何收集和生成信息,引用的关注点从公司收集未授权的训练数据到聊天机器人倾向于散布误导信息。在欧盟,他们适用的是《通用数据保护条例》(GDPR),这是全球最强的法律隐私框架之一,其影响可能远远超出欧洲。同时,欧盟的立法者正在制定一项专门针对 AI 的法律,很可能引领 ChatGPT 等系统的新时代法规。

ChatGPT 在误导信息,版权和数据保护方面的各种问题,使其成为了众矢之的。ChatGPT 是生成 AI 的最流行的例子之一,它是一个涵盖根据用户提示生成文本,图像,视频音频等工具的笼统总称。据报道,在 2022 年 11 月推出后仅两个月内达到每月 1 亿活跃用户,成为历史上增长最快的消费者应用之一(OpenAI 从未确认这些数字)。人们使用它来将文本翻译成不同的语言,写文章和生成代码。但批评者——包括监管机构——已经强调了 ChatGPT 不可靠的输出,令人困惑的版权问题和不透明的数据保护做法。

意大利是第一个采取行动的国家。3 月 31 日,它指出了四种 OpenAI 违反 GDPR 的方式:允许 ChatGPT 提供不准确或误导性信息,未通知用户其数据收集做法,未满足六种可能的个人数据处理法律正当理由,以及未适当地防止 13 岁以下的儿童使用该服务。GPDP 下令 OpenAI 立即停止使用在 ChatGPT 的训练数据中收集的个人信息。

其他国家尚未采取任何行动。但是自 3 月以来,至少有三个欧盟国家(德国,法国和西班牙)对 ChatGPT 发起了自己的调查。与此同时,加拿大正在根据其《个人信息保护和电子文件法案》(PIPEDA)评估隐私问题。欧洲数据保护委员会(EDPB)甚至建立了一个专门的任务组,帮助协调调查。如果这些机构要求 OpenAI 进行更改,它们可能会影响该服务对全球用户的运行。

监管机构的关注点可以被广泛分为两类:ChatGPT 的训练数据来自何处以及 OpenAI 如何向其用户提供信息。

ChatGPT 使用的是 OpenAI 的 GPT-3.5 和 GPT-4 大型语言模型(LLM),这些模型基于大量的人类产生的文本进行训练。OpenAI 对使用的具体训练文本持保密态度,但表示其依靠「各种许可,创造和公开可用的数据来源,其中可能包括公开可用的个人信息。」

这可能会在 GDPR 下带来巨大的问题。该法律于 2018 年颁布,覆盖从欧盟公民那里收集或处理数据的所有服务,无论负责该服务的组织所在何处。GDPR 规定,公司在收集个人数据之前必须取得明确同意,并为收集数据提供法律合理性,并透明地说明如何使用和存储数据。

欧洲监管机构声称,围绕 OpenAI 训练数据的保密性意味着无法确认进入其中的个人信息是否最初是在用户同意的情况下提供的,GPDP 特别指出,OpenAI 一开始就「没有法律依据」收集这些信息。到目前为止,OpenAI 和其他公司几乎没有受到审查,但这一说法给未来的数据抓取工作增加了一个大问题。

此外,GDPR 的「被遗忘权」允许用户要求公司纠正其个人信息或完全删除它。OpenAI 预先更新了其隐私政策以促进这些要求,但在将特定数据分离成这些大型语言模型后,处理它们可能非常复杂,这引发了争议。OpenAI 还直接从用户处收集信息。与任何互联网平台一样,它收集各种标准用户数据(例如姓名,联系信息,银行卡详细信息等)。但是,更重要的是,它记录用户与 ChatGPT 的交互。正如 FAQ 中所述,该数据可以由 OpenAI 的员工进行审核,并用于训练其模型的未来版本。考虑到人们使用 ChatGPT 提问的亲密问题——将机器人当作治疗师或医生使用——这意味着该公司正在收集各种敏感数据。

至少有一些数据可能是从未成年人那里收集的,因为 OpenAI 的政策规定「不会故意从 13 岁以下的儿童那里收集个人信息」,但没有严格的年龄确认门槛。对于不允许从 13 岁以下的人那里收集数据,并且(在某些国家)要求 16 岁以下的未成年人获得父母同意的欧盟规定来说,这并不是好的政策。在担忧 ChatGPT 的未成年人筛选问题方面,GPDP 声称,ChatGPT 缺乏年龄过滤,会暴露未成年人接触「完全不适合其成长和自我意识水平」的回答。OpenAI 在使用这些数据方面拥有广泛的自由度,这让一些监管机构感到担忧,存储数据也存在安全风险。像三星和 JPMorGAN 这样的公司已经禁止员工使用生成 AI 工具,因为他们担心员工会上传敏感数据。实际上,在 ChatGPT 遭受严重数据泄露,暴露用户的聊天记录和电子邮件地址后,意大利宣布禁用该应用。

ChatGPT 提供错误信息的倾向也可能会带来问题。GDPR 法规规定所有个人数据必须准确无误,这一点在 GPDP 的声明中得到强调。这可能会对大多数 AI 文本生成器造成困扰,因为它们容易出现「幻觉」:即对问题作出事实不正确或不相关的回答。在其他地方已经看到这种现象带来一些真实的后果,澳大利亚一个地区的市长因 ChatGPT 错误地声称他因贪污入狱而威胁起诉 OpenAI 诽谤他。ChatGPT 的广泛应用和目前在 AI 市场上的主导地位使其成为一个特别有吸引力的目标,但它的竞争对手和合作伙伴,如拥有 Bard谷歌或 OpenAI 的 Azure AI,也可能面临审查。在 ChatGPT 之前,意大利还禁止了聊天机器人平台 Replika 收集未成年人信息,至今仍然被禁用。虽然 GDPR 是一套强大的法律,但它并不是为解决 AI 特定问题而制定的。然而,一些可以解决这些问题的规定可能已经在视野范围内。

2021 年,欧盟提交了第一份《人工智能法》(AIA)的草案,这部立法将与 GDPR 一起制定。该法案根据人们对 AI 工具的风险评估对其进行管理,从「最小」(例如垃圾邮件过滤器)到「高」(用于执法或教育的 AI 工具)或「不可接受」,并因此被禁用(如社会信用体系)。在去年出现像 ChatGPT 这样的大型语言模型的激增之后,立法者现在正在赶快增加「基础模型」和「通用人工智能系统(GPAIs)」的规则——这是指包括 LLMs 在内的大规模 AI 系统——并有可能把它们归为「高风险」服务。

AIA 的规定不仅超出了数据保护的范畴。最近提出的一项修正案将强制公司披露用于开发生成 AI 工具的任何版权材料。这可能会暴露曾经的机密数据集,使更多的公司容易受到侵权诉讼的攻击,而这已经打击了一些服务。

专门制定 AI 法规的法律可能要等到 2024 年才会在欧洲生效,但达成该法律可能需要一段时间。欧盟立法者于 4 月 27 日就 AI 法案达成了临时协议。委员会将在 5 月 11 日对草案进行投票,最终提案预计在 6 月中旬公布。然后,欧洲理事会、议会和委员会将不得不解决任何悬而未决的争议,然后才能实施该法律。如果一切顺利,它可能会在 2024 年下半年被采纳。

意大利和OpenAI的争议提供了一个早期的示例,展示了监管机构和人工智能公司如何进行协商。如果OpenAI不能在9月30日之前建立更严格的年龄门槛以防止13岁以下的未成年人进入,并要求13岁以上的未成年人获得父母的同意,那么它可能会再次被封锁。这提供了一个示范,说明欧洲认为什么是一家合适的人工智能公司行为,至少在新法规发布之前是这样。