一项突破性研究成果:我们研发出全球首个能够针对整张病理图片进行建模和分类的AI大模型

“Nature 编辑迅速意识到这是一个里程碑式的科研成果,于是快速处理了稿件。最终这篇论文在 5 个月内就被接受,远远快于 Nature 平均 268 天的接受时间。”谈及自己和合作者的最新论文,美国华盛顿大学王晟教授表示。

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

图 | 王晟(来源:王晟)

审稿人也表示,在数字病理学领域这是一个前所未有的工作,非常期待看到它能改变病理学的科研和临床范式。

研究中,王晟和合作者研发出一个超多参数的病理学大模型,也是全球第一个能针对“整张”病理图片进行建模和分类的模型。

他们将本次模型在来自 28 个癌症中心的 3 万个病人数据上进行训练和验证。

结果显示,该模型在 26 个任务中的 25 个任务上取得最佳效果,证明了其有效性和普适性。

王晟表示,本次成果是医生的有力助手、普通人的福音、医学院的辅助教材。

“这项研究的成功让我们对 AI 方法在癌症治疗中的应用充满信心,也将成为癌症治疗领域的新开始。”他说。

随着技术的进一步发展,本次 AI 模型有望在癌症诊断和治疗中发挥越来越重要的作用,为全球数百万癌症患者带来新的希望。

预计其将带来以下应用:

其一,成为医生的有力助手。

首先,AI 病理学模型将直接应用于各大医院,成为医生进行病理学诊断的初筛工具之一。

这一模型能够迅速分析病理图像,提供初步诊断意见,帮助病理学家更高效地做出准确诊断。

这不仅能提高诊断速度,还能减轻病理学家的工作负担,让他们有更多时间处理复杂病例。

其二,成为普通人的福音。

在缺乏高水平病理学家的地区或国家,AI 病理学模型将成为一种替代方案。

普通用户可以直接使用这一模型对他们的病理学图片进行分析,获得可靠的诊断结果。

这将大大改善医疗资源不足地区的诊断水平,确保更多患者能够及时得到准确的诊断和治疗建议。

其三,成为医学院的辅助教材。

培养一个合格的病理学从业者需要大量时间和金钱,而 AI 模型可以作为医学院的辅助教材。

通过提供大量标注的学习样本,AI 模型可以让医学院学生接触到更多病理学案例,提升他们的学习效率和实践经验。

总的来说,AI 病理学模型在医生、普通人和医学生三个方面展现了广阔的应用前景。它将推动病理学领域的发展,提高癌症诊断的效率和准确性。

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

(来源:Nature)

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

让模型不再“看了后面忘了前面”

据介绍,每年全球因癌症去世的人数超过一千万人,快速并且准确的诊断癌症非常重要。

病理切片检查是最直观最可靠的诊断肿瘤的方法,也是每一个癌症病人被确诊癌症的必须手段之一。

病理检查将患病器官直接取下的病灶制成切片,放在显微镜下观察,然后判断是否为恶性肿瘤,预测对应的病理分型,从而决定相关的治疗手段。

鉴于病理检测的大量需求和繁琐工作量,设计准确的 AI 模型来将上述过程进行自动化,会带来极大的价值。

病理切片分析过程可以建模为一个图片分类的问题,即给定一个病理切片的图片,用 AI 模型来将图片分类到恶性或者良性的病理分型。

但是,与传统图片分类模型(例如将动物图片分类到猫或者狗)的不同之处是,病理图片非常大。

一个普通的病理图片甚至高达 10 万乘以 10 万个像素,而传统 AI 图片的分类器一般是针对 256*256 像素的图进行设计的。

这么一整张病理图片会占据很大的内存空间,无法完整地放入 AI 模型,进而使用图形处理器(GPU,Graphics Processing Unit)加以训练。

因此,现有的 AI 模型都无法对“整张”(whole-slide)病理图片进行建模。

为了解决这个问题,王晟等人发现要对整张 10 万乘以 10 万个像素的病理图片进行建模,核心的技术难点解决长文章建模的问题。

即让模型能够对一个超长的文字序列进行整体建模,而不会出现“看了后面忘了前面”的情况。

一个病理图片对应的数据规模约等于 15 万个字的一个长文章。举例来说,让一个人去连续读 15 万个字的文章,那必然会出现看了后面忘了前面,无法从全局角度去理解这个长文章的情况。

对 AI 模型来说,难点是相同的,AI 模型也无法完全理解和消化这个长文章。

因此,长文章建模是自然语言处理领域的一个长久的问题,也是最核心的问题之一。

近年来,ChatGPTGPT4 引起的大模型潮流,让长文章建模问题得到了广泛的关注和研究。

不同于传统的问答系统,ChatGPT 在回答用户提问的时候,会综合考虑用户与 ChatGPT 之前的对话,而这些对话就会形成一个长文章。

ChatGPT 的成功很大程度源于对长文章建模的新自然语言处理技术。

因此,王晟等人将这些在自然语言处理中建模长文章的技术,巧妙地改进和运用于病理图片分类,从而解决了对超大整张病理图片进行建模和分类的难题。

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

(来源:Nature)

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

三方强强联合,曾经的师生如今共同担任通讯作者

王晟表示,本次项目由他所在的华盛顿大学、微软研究院、以及美国最大的医疗机构之一美国普罗维登斯癌症研究院共同合作完成的。

2023 年 6 月,王晟的博士研究生许涵文在微软研究院进行暑期实习,研究课题就是如何对大规模病理图片进行建模。

这时,ChatGPT 等大模型技术在各个领域崭露头角,但还没有人将其应用于医学病理图片。

三方经过深入探讨之后发现:应用大模型技术的关键难点在于长文章建模。

此时,微软研究院发布的 LongNet 模型引起了他们的注意,尽管这个模型从未用于医学领域,但在长文章建模方面表现出色。

后来,许涵文和他的微软研究院实习导师初步判断:微软研究院的 LongNet 模型能够解决大规模病理图片建模问题。随后,许涵文开展了为期三个月的实验。

2023 年 9 月,他们获得了初步解决方案,即大尺度病理图片建模问题,可以通过自然语言处理中的长文章建模技术来解决。

初步方案确定后,他们进行了更深入的验证。并在来自 28 个癌症中心的 31 种癌症类型数据上进行测试。

实验结果显示:本次模型在多个任务上都达到了最佳效果,说明它是一个既通用、又准确的病理学建模方案。

王晟表示:“项目的成功离不开由世界顶尖 AI 专家和病理学专家组建的跨领域团队。”

其中,美国普罗维登斯癌症研究院提供了核心数据和医学技术,微软研究院贡献了最先进的 AI 技术和计算资源,王晟所在的华盛顿大学则带来了前沿的 AI 医学研究技术和经验。

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

(来源:Nature)

日前,相关论文以《真实数据数字病理学的整体幻灯基础模型》(A whole-slide foundation model for digital pathology from real-world data)为题发在 Nature[1]。

许涵文是第一作者,美国普罗维登斯癌症研究院的卡罗·毕弗洛(Carlo Bifulco)教授、王晟、以及微软研究院的潘海峰博士担任共同通讯作者。

AI病理学大模型革新癌症诊断,科学家揭秘技术突破

图 | 相关论文(来源:Nature)

王晟表示:“我与潘博士的合作始于 2014 年,那时我还是一年级博士生,在位于西雅图的微软研究院做暑期实习,潘博士则是我的实习导师。”

当时他们都在研究自然语言处理(NLP,Natural Language Processing),王晟是美国伊利诺伊大学香槟分校计算机系的博士生,潘海峰则是微软研究院 NLP 组的研究员。

彼时,深度学习算法刚刚开始崭露头角,AI 的潮流也尚未兴起,还没有研究人员将 AI 或 NLP 方法应用于医学领域的研究。

NLP 和医学在当时看来是完全不相关的两个领域。

然而,潘海峰建议王晟探索研究如何将 NLP 技术应用于解决医学数据问题。

2014 年夏天,他们合作的项目就是利用机器学习和 NLP 中常用的置信传播方法,进行癌症药物作用的因果推断和预测。

在 AlphaFold 于 2020 年问世后,AI 制药已成为 AI 领域最热门的应用之一,而他们早在 2014 年就已经在研究类似的问题。

这次发表在 Nature 上的论文延续了这一思路,他们利用 ChatGPT 中的长文章建模技术,解决了医学领域中超大病理图片的建模问题。

“可以说,我们将当下最前沿的生成式 AI 技术应用到了一个全新领域,这也是我们论文的最大创新点。”王晟表示。

下一步,他们计划将本次 AI 模型推广到其他癌症诊断中的图像数据,例如计算机断层扫描(CT,ComputedTomography)、核磁共振成像和 X 光。

因为本次提出的是一个通用的医学图像模型架构,因此他们相信这一模型架构同样适用于其他类型的医学图像数据。

具体来说,他们计划为每种图像数据(如 CT、核磁共振成像、X 光)构建一个大模型,以充分利用这些不同类型的图像信息。

除此之外,他们还将对基因数据和临床诊断书等其他重要医学数据类型,构建相应的大模型。

最终,他们的目标是将这些独立的大模型进行整合,创建一个全面的癌症诊断 AI 系统。

这一系统能够结合图像、基因和临床数据,为癌症诊断和治疗提供全面支持。

预计这种跨领域、多数据源的 AI 模型有望成为癌症诊断和治疗的有力工具,为医生提供更全面的信息支持,推动医疗研究领域的进一步发展。

这一技术将极大提升癌症诊断的精确度和效率,预示着在医疗研究中的深远影响。