Midjourney 和纽约大学的研究人员近日联手开发出一种创新方法,旨在显著提升语言模型生成创意文本的多样性,同时将质量损失控制在最低限度。
这项发表在最新研究论文中的技术,核心在于将“偏差指标”引入人工智能的训练过程。其运作原理是通过量化每个生成的文本与针对同一提示创建的其他文本之间的差异。研究人员利用嵌入文本及其成对余弦距离来计算这些差异,从而为系统提供了一种理解文本变异性的数学框架。这种新的训练方法能够评估大型语言模型(LLM)响应之间的差异,从而增强输出的多样性。
该培训方法评估 LLM 响应之间的差异以增强输出多样性。| 图片:Chung 等人
初步测试结果令人鼓舞。采用这种新型训练方法的模型,其生成的文本多样性提高了23%,而根据 Reddit 的奖励系统评估,质量得分仅下降了5%。
一个具体的测试案例清晰地展示了该方法的实际效果。当研究人员向标准 GPT-4o 模型发出提示“亲爱的,你为什么发抖?你现在是国王了”时,模型主要生成关于一位紧张的新统治者的故事。然而,经过改进的 Llama-3.1-8B 模型(尽管规模较小)却创作出了风格迥异的故事,涵盖了关于熊王子的黑暗幻想,以及水下的超自然传说等多种题材,展现出远超前者的创意广度。人类测试人员的反馈也支持了这些发现,他们认为这些文本在保持质量的同时,展现出了更丰富的多样性。值得注意的是,研究人员的测试对象是相对较旧的 GPT-4o 模型,而非成本更高但能生成更自然文本的新一代 GPT-4.5。研究数据表明,经过改进的模型在故事质量和多样性方面均优于其他模型。
研究团队重点关注两种类型的多样性:语义变化(不同的故事内容和情节)以及文体变化(听起来像是出自不同作者的写作风格)。他们为每种类型开发了特定的版本,但实验结果表明,将两者结合使用能够获得最佳效果。
数据显示,修改后的模型在故事质量和多样性方面均优于其他模型。| 图片:Chung 等人。
在研究过程中,该团队利用了 Reddit 社区 r/WritingPrompts 中超过10万对提示-响应数据。他们发现,每个提示仅需四个不同的响应,即可显著提升模型的多样性。此外,该系统还可以通过使用精心挑选的训练样本或为不同的响应设置最低质量标准来维持输出质量,这使其在提升输出多样性方面比其他方法更具灵活性。
尽管前景可期,但仍有一些问题需要进一步探索。研究人员尚未验证他们的方法是否适用于创意写作以外的领域,例如技术文档和摘要等可能需要不同的处理方式。该技术在许多大型模型使用的在线训练环境中的有效性也尚未得到充分测试。
此外,用于衡量质量的 Reddit 点赞数系统本身也存在局限性。虽然点赞数可以提供一些关于文本质量的参考,但它们忽略了技术准确性、一致性和专业写作标准等重要因素,这表明未来可能需要更全面的评估方法。
即便存在这些未决问题,这项新技术仍有望彻底改变大型语言模型处理创意写作任务的方式,因为目前的模型经常陷入重复性的模式。研究人员表示,他们将在 GitHub 上公开分享他们的代码,以供其他研究人员和开发者借鉴。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则