最近,一个备受关注的问题引发了广泛讨论:“13.11%和13.8%究竟哪个更大?”这个简单的数学问题竟然让多个知名AI大模型难以给出正确答案。

前不久,网络热门话题“13.11%和13.8%究竟哪个大”引发网友关注,有媒体就这一问题向部分知名问答大模型发起提问,结果发现这些大模型多数都无法正确回答。随后有报道称,“一道小学生难度的数学题竟然难倒了一众海内外AI大模型。”关于大模型对数字小数部分识别混淆的问题,业内早有关注,其本质原因并非是在数学计算方面遇到了困难,而是因“分词器”拆解错误和大模型技术架构使然,导致在审题时陷入了误区。除了数学类问题之外,包括在复杂字母图形的识别,复杂语句的梳理等场景下也都存在类似逻辑推理能力缺陷问题。对此现象,永信至诚智能永信团队在AI大模型安全测评“数字风洞”平台的大模型竞技场中,详细展示了相关技术原理。

AI大模型竞技场揭秘:“数字风洞”平台表现如何?

永信至诚大模型竞技场相关负责人介绍,在处理数字问题时,因为神经网络特殊的注意力算法,AI大模型会通过比对小数点后面数值的大小来生成答案,所以AI大模型会得出错误结论。事实上,只需要统一数字格式将小数点后写至百分位,分词器便能够正确识别,进而帮助大模型进行准确的推理判断。

AI大模型竞技场揭秘:“数字风洞”平台表现如何?

大模型分词器原理结合这一技术原理,该团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对比,通过基础逻辑陷阱类问题,对各家大模型的表现进行测评。测评结果显示,除了基础设施安全、内容安全、数据与应用安全等领域外,大模型底层架构中还存在一些如“分词器”这样易被忽略的设计单元,这些设计单元的错误输出会影响到整个大模型的可靠性和安全性。这也说明大模型的的发展需要伴随持续的检测和改进。据介绍,“数字风洞”平台已将“大模型竞技场”功能面向体验用户开放,为大模型开发团队提供横向对比测评的功能,帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答,以便开发者选择使用开源基座模型进行开发ai应用、Agent或进行训练改进时,更直观对比不同大模型的异常反馈情况,便捷地开展大模型产品选型工作。

通过“数字风洞”平台的大模型竞技场,我们能够更清晰地了解不同大模型在处理复杂逻辑和数学推理时的表现差异,为开发者和研究人员提供了重要的选型和优化参考。AI大模型的未来发展,需要持续的技术检测和创新改进,以确保其在各类应用场景中的准确性和可靠性。