针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自身参数化记忆的影响产生语言幻觉,答案错误率高达90%。此外,在几何等视觉问题上GPT-4V的表现也不尽如人意,反映出其当前的视觉能力还非常有限。简单的图像操作就可以轻易地误导GPT-4V,暴露出其脆弱性。相比之下,LLaVA-1.5的知识储备则不如GPT-4V丰富,存在一些常识性错误。本研究揭示了当前视觉语言模型在图像推理方面的局限,为未来的改进提供参考。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则