研究：人工智能在认知障碍测试中表现不佳

《英国医学杂志》最新发表的一项研究显示，在广泛用于检测阿尔茨海默病早期症状的测试中，大部分参与测试的人工智能大语言模型都表现出相当于人类轻度认知障碍的迹象。尽管这只是一项基于观察的研究，但新发现挑战了人工智能将很快取代人类医生的假设。

过去几年，人工智能尤其是大语言模型生成能力取得了巨大进步。在医学领域，这些发展引发了猜测：这些大语言模型能在医疗任务上超越人类医生吗？尽管先前的多项研究表明，大语言模型在一系列医学诊断任务上表现非常出色，但它们的认知能力变化还需要进一步验证。

为填补这一知识空白，以色列哈达萨医疗中心等机构的研究人员使用“蒙特利尔认知评估量表”测试了多个领先和公开的大语言模型的认知能力。这些大语言模型包括由美国开放人工智能研究中心（OpenAI）开发的GPT-4和GPT-4o、由美国Anthropic公司开发的“克劳德3.5”以及由美国谷歌公司开发的“双子座1.0”和“双子座1.5”。

“蒙特利尔认知评估量表”广泛用于检测认知障碍和阿尔茨海默病的早期迹象，通常用于老年人。通过一系列简短的任务和问题，该测试可以评估注意力、记忆力、语言、视觉空间技能和执行功能等能力。得分最高为30分，通常得分26分及以上被视为认知正常。

测试结果显示，GPT-4o得分最高——26分，“双子座1.0”得分最低——16分。所有大语言模型都能很好地完成命名、注意力、语言和抽象等方面的任务，但在视觉空间技能和执行功能测试中都表现不佳。在进一步的视觉空间测试中，大部分大语言模型无法准确解释复杂的视觉场景。

研究人员表示，在需要视觉抽象和执行功能的任务中，大语言模型几乎“全军覆没”，这表明人工智能在临床环境中的使用可能会有困难。因此他们开玩笑说，神经科医生不仅不太可能很快被大语言模型取代，而且他们可能会发现自己将迎来新的“虚拟患者”——表现出轻度认知障碍的人工智能模型。

七个圈AIGC破圈俱乐部欢迎您！

8.4万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.6万用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.2万用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.9万用户在看

研究：人工智能在认知障碍测试中表现不佳

最近更新

文章目录

研究：人工智能在认知障碍测试中表现不佳

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

七个圈AIGC破圈俱乐部欢迎您！

8.4万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

6.6万 用户在看

用AI写出最火的玄幻小说，全过程完整指南！附提示词和思路讲解

5.2万 用户在看

推荐3个 AI 漫画生成工具，成为漫画创作者，创作专属故事

4.9万 用户在看

研究：人工智能在认知障碍测试中表现不佳

最近更新

文章目录

研究：人工智能在认知障碍测试中表现不佳

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

8.4万用户在看

6.6万用户在看

5.2万用户在看

4.9万用户在看