机器学习早已渗透到各种线上服务中,网购便是其中最成功的领域之一。近年来,机器学习被应用于各种网购任务,例如用户查询、浏览记录、评论分析、产品属性提取等等。为了促进机器学习方法的发展,许多基准测试应运而生,旨在降低研究人员和工程师开发和评估针对真实网购任务的新颖解决方案的门槛。

然而,现有的模型和基准通常是为特定任务量身定制的,无法完全捕捉网购的复杂性。大型语言模型 (LLM) 凭借其多任务和少样本学习能力,有可能通过减少特定任务的工程工作量并为用户提供交互式对话来彻底改变在线购物体验。尽管潜力巨大,但大型语言模型在在线购物领域也面临着独特的挑战,例如特定领域的购物概念、隐性知识和异构的用户行为。

ChatGPT 也翻车?网购 AI 助手大比拼,谁才是真正的“剁手神器”?

为应对这些挑战,亚马逊的研究人员提出了 Shopping MMLU,这是一个基于真实亚马逊数据的多任务在线购物基准测试。Shopping MMLU 包含57项任务,涵盖4大购物技能:概念理解、知识推理、用户行为对齐和多语言能力,因此可以全面评估大型语言模型作为通用购物助手的潜力。

这 Shopping MMLU 可不是一般的“考试”,它可是从真实的亚马逊购物数据中提取了57项任务,涵盖了 概念理解、知识推理、用户行为对齐和多语言能力 四大模块。简单来说,就是要考察 AI 助手是否能像真人导购一样,理解你的需求,帮你找到心仪的宝贝。

ChatGPT 也翻车?网购 AI 助手大比拼,谁才是真正的“剁手神器”?

亚马逊的研究人员用 Shopping MMLU 测试了20多个现有的 AI 模型,结果发现:

那些大名鼎鼎的专有 AI 模型,比如 Claude-3Sonnet、ChatGPT,表现确实不俗,稳坐第一梯队。 不过,开源的 AI 模型也迎头赶上,大有挑战“权威”的势头。

Shopping MMLU 的测试结果也揭示了一个有趣的现象:网购其实是一个多任务学习问题。 也就是说,AI 助手需要同时掌握多种技能才能胜任这份工作。

更令人惊喜的是,那些在通用领域表现出色的 AI 模型,在网购领域也毫不逊色。 这说明,AI 助手可以将通用知识迁移到特定领域,快速学习新技能。

ChatGPT 也翻车?网购 AI 助手大比拼,谁才是真正的“剁手神器”?

当然,AI 助手也并非天生完美。 研究人员发现,一些常用的 AI 训练方法,比如指令微调 (IFT),在某些情况下可能会导致模型过度拟合,反而影响其性能。

此外,少样本学习也是 AI 助手面临的一大挑战。 这意味着,AI 助手在面对新任务时,需要快速学习,而不能总是依赖大量的训练数据。

总之,亚马逊的 Shopping MMLU 基准测试为 AI 助手的发展指明了方向。未来,我们期待看到更加智能、更加人性化的网购 AI 助手,让我们的购物体验更加便捷、更加愉悦。

ChatGPT 也翻车?网购 AI 助手大比拼,谁才是真正的“剁手神器”?

研究人员还发现了一些值得关注的细节:

Shopping MMLU 比现有的其他网购 AI 数据集更加复杂和具有挑战性。

特定领域的指令微调效果并不总是很好,而且只在已经掌握大量通用知识的强大模型上才有效。

目前,即使是最先进的 AI 模型,在某些网购任务上的表现也还不如专门针对这些任务设计的算法。

ChatGPT 也翻车?网购 AI 助手大比拼,谁才是真正的“剁手神器”?

这项研究的结果表明,构建一个完美的网购 AI 助手还有很长的路要走。未来的研究方向包括:开发更加有效的 AI 训练方法,构建更加多样化的网购 AI 数据集,以及将 AI 模型与特定任务算法相结合,打造更加强大的混合型 AI 系统。

最后,研究人员也坦诚地指出了这项研究的一些局限性:

Shopping MMLU 中的数据主要来自亚马逊,可能无法完全代表其他电商平台的用户行为。

尽管研究人员已经尽力避免,但 Shopping MMLU 中的数据可能仍然存在一些错误。

总而言之,亚马逊的这项研究为我们打开了通往未来智能购物时代的大门。相信在不久的将来,网购 AI 助手将成为我们生活中不可或缺的一部分。

论文地址:https://arxiv.org/pdf/2410.20745

数据及评测代码:

https://github.com/KL4805/ShoppingMMLU

KDD Cup 2024 Workshop及获奖队伍解法:

https://amazon-kddcup24.github.io/

评估榜单:

https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard