ChatGPT的崛起:从GPT

什么是ChatGPT

近期,OpenAI 发布了 ChatGPT,它是一种可以对话交互的模型,因其智能性而受到许多用户的欢迎。

ChatGPT 也是 OpenAI 之前发布的 InstructGPT 的亲戚,ChatGPT 使用模型训练 RLHF(Reinforcement learning with human feedback)也许 ChatGPT 的到来,也是 OpenAI 的 GPT-4 以前的序章正式推出。

GPT是什么?从GPT-1到GPT-3

Generative Pre-trained Transformer (GPT),它是一种基于互联网可用数据训练的文本生成深度学习模式。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。 2018年,GPT-1 出生,今年也是 NLP(自然语言处理)预训练模型第一年。 性能方面,GPT-1 具有一定的泛化能力,可用于与监督任务无关的任务 NLP 任务中。 常用任务包括:

  • 自然语言推理:判断两句话的关系(包括、矛盾、中立);
  • 问答与常识推理:输入文章及多个答案,输出答案的准确性;
  • 语义相似度识别:判断两句语义是否相关;
  • 分类:判断输入文本指定的类别;

虽然 GPT-1 未经调试的任务有一定的效果,但其泛化能力远低于微调监督任务,因此 GPT-1 只能算是一个很好的语言理解工具,而不是对话 AI。 GPT-2 也于 2019 然而,年如期而至,GPT-2 原网络没有太多的结构创新和设计,只使用更多的网络参数和更大的数据集:最大模型的总共 48 层,参数达到 15 1亿,学习目标是使用无监督预训练模型进行监督任务。在性能方面,除了理解能力,GPT-2 在生成方面,它首次表现出了强大的天赋:阅读摘要、聊天、续集、编故事,甚至生成假新闻、钓鱼邮件或在线角色扮演。在“变大”之后,GPT-2 它确实表现出普遍而强大的能力,并在许多特定的语言建模任务中实现了当时的最佳性能。

之后,GPT-3 作为一个无监督模型(现在常被称为自监督模型),几乎可以完成自然语言处理的大部分任务,比如搜索、阅读理解、语义推断、机器翻译、文章生成、自动问答等。此外,该模型在许多任务中表现出色。例如,它在法语-英语和德语-英语机器翻译任务中达到了目前的最佳水平。自动生成的文章几乎无法区分人或机器(只有52%的准确性,相当于随机猜测)。更令人惊讶的是,它几乎实现了两位数的加减操作任务 100% 甚至可以根据任务描述自动生成代码的准确性。无监督模型功能多,效果好,似乎让人看到了通用人工智能的希望。也许这就是 GPT-3 影响如此之大的主要原因。

GPT-3 什么是模型?

实际上,GPT-3 它是一个简单的统计语言模型。机器学习的角度来看,语言模型是对单词序列概率分布的建模,即使用已经说过的片段作为预测下一刻不同单词概率分布的条件。一方面,语言模型可以测量一个句子是否符合语言语法的程度(例如,它可以测量人机对话系统自动生成的回复是否自然流畅),也可以用来预测新句子的生成。举例来说,对于一个片段“中午12点,我们一起去餐厅”,语言模型可以预测“餐厅”后面可能出现的单词。一般语言模型会预测下一个词是“吃”,强大的语言模型可以捕捉时间信息,预测符合语境的词“吃午饭”。 一般来说,语言模型是否强大主要取决于两点:

  • 首先,看看这个模型能否利用历史上下文的所有信息,在上述例子中,如果“中午12点”的远程语义信息无法捕捉到,语言模型几乎无法预测下一个词“吃午饭”。
  • 其次,这取决于历史上下文是否有足够丰富的模型学习,即训练语料是否足够丰富。由于语言模型属于自我监督学习,优化目标是最大限度地发挥所见文本的语言模型概率,因此任何文本都可以作为训练数据,无需标记。

由于 GPT-3 性能更强,参数明显更多,主题文本更多,明显优于前代 GPT-2。 作为目前最大的密集神经网络,GPT-3 可以将网页描述转换为相应的代码,模仿人类叙事,创作定制诗歌,生成游戏剧本,甚至模仿已故哲学家——预测生活的真正意义。且 GPT-3 不需要微调,只需要一些输出样本(少量学习)来处理语法问题。 可以说 GPT-3 它似乎满足了我们对语言专家的所有想象。

GPT-3 有哪些问题?

但是 GTP-3 这并不完美。目前,人们最关心人工智能的主要问题之一是,聊天机器人和文本生成工具可能会学习互联网上的所有文本,无论质量如何,然后产生错误的、恶意的甚至攻击性的语言输出,这将充分影响他们的下一个应用。 OpenAI 它还提出,它将在不久的将来发布得更强大 GPT-4:

据说,GPT-4 它将于明年发布,它可以通过图灵测试,并且可以先进和人类没什么区别,此外,引进企业 GPT-4 成本也将大幅下降。

ChatGPT 与 InstructGPT

谈到 ChatGPT,谈谈它的“前身”InstructGPT。

2022 年初,OpenAI 发布了 InstructGPT,与这项研究相比 GPT-3 而言,OpenAI 采用对齐研究(alignment research),训练出更真实、更无害、更好地遵循用户意图的语言模型 InstructGPT。 InstructGPT 是微调的新版本 GPT-3.有害、不真实、偏差的输出可以最小化。

InstructGPT 什么是工作原理?

开发人员通过监督学习 从人类反馈中获得的强化学习来提高 GPT-3 输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法奖励产生类似于高级输出材料的模型。 训练数据集从创建提示开始,其中一些是基于 GPT-3 用户的输入,比如“给我讲一个关于青蛙的故事”或者“用几句话向一个6岁的孩子解释登月”。

开发人员将提示分为三个部分,并以不同的方式对每个部分做出反应:

  • 人类作家会回应第一组提示。开发人员微调了一个训练有素的人 GPT-3,将它变成 InstructGPT 为了生成每个提示的现有响应。
  • 下一步是训练一个模型,以获得更高的奖励,以获得更好的响应。对于第二组提示,优化后的模型将产生多个响应。手动评分员将对每个答案进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预训练GPT-3)学会计算更高的奖励,并为低分的答案计算更低的奖励。
  • 开发人员利用第三组提示和强化学习方法优化近端策略(Proximal Policy Optimization, PPO)语言模型进一步微调。提示后,语言模型会产生响应,奖励模型会给予相应的奖励。PPO 使用奖励来更新语言模型。

重要的是什么?

核心是人工智能需要负责任的人工智能。

OpenAI 语言模型可以帮助教育、虚拟治疗师、写作辅助工具、角色扮演游戏等。在这些领域,社会偏见、错误信息和有毒信息更麻烦,可以避免这些缺陷的系统更有用。

ChatGPT 与 InstructGPT 训练过程有什么不同?

总体来说,ChatGPT 和上文的 InstructGPT 一样,就是使用 RLHF(从人类反馈中加强学习)训练。 不同之处在于数据是如何为训练(和收集)设置的。(以下是解释:以前的解释: InstructGPT 模型,是输入输出,然后与训练数据进行比较,奖励不是惩罚;现在 ChatGPT 这是一个输入,模型给出多个输出,然后人们给出输出结果,让模型给这些结果从“更像人”到“胡说八道”,让模型学习人类排名的方式,这个策略被称为 supervised learning,感谢张子和博士。

ChatGPT 有哪些局限性?

如下:

a) 加强训练学习 (RL) 在这个阶段,没有真相和问题标准答案的具体来源来回答你的问题。

b) 训练模型比较谨慎,可能会拒绝回答(以免误报提示)。

c) 监督训练可能会误导/偏向于模型,倾向于知道理想的答案,而不是模型产生一组随机响应,只有人类评论家选择好的/排名靠前的响应

注意:ChatGPT 对措辞敏感,有时模型最终对短语没有反应,但稍微调整一下问题/短语,最终会正确回答。培训师更喜欢更长的答案,因为它们可能看起来更全面,导致更长的答案,以及一些短语在模型中的过度使用。如果初始提示或问题模糊,模型不会适当要求澄清。