一款全新靶点、全新机制的新药,其研发需要经过靶点发现、靶点验证、先导物发现,以及先导物优化等阶段,这个过程可能需要验证、筛选数十万个化合物。此前在药物研发行业一直有一个著名的“双十定律”,即至少需要10年时间与10亿美元,才可能研发出一款新药。

而按照Nature的统计,“双十定律”其实已经是一种理想业态,据国外某行业报告提供的数据显示,一款新药的平均研发周期达10年以上,投入资金则在20亿美元左右;即使候选药物通过I期临床试验,其进入市场的可能性也仅约5%左右。投入巨量资源,但新药研发的成功率、回报率却非常低——药物研发早已走入“倒摩尔定律”的“怪圈”(即自1950年起,批准投资10亿美元研发的新药数量每9年就会减半)。

面对制药发展过程中面临的诸多痛点,产业正在积极寻找破题方法。从初期计算机辅助药物设计(CADD),发展到如今的AI辅助药物研发(AIDD),在不断尝试和探索后,通过AI技术来破解药物发展难题,已经逐渐成为行业共识。来自TechEmergence的报告显示,AI可以将新药研发的成功率提高到16.7%,AI辅助药物研发每年能节约540亿美元的研发费用,并在研发的主要环节节约40%至60%的时间成本。

AI在这个领域的成功要旨,要归功于它强大的数据分析深度学习能力,使它能够快速处理和解析大量的生物化学信息,帮助科学家筛选出合适的化合物,设计、优化药物分子结构,从而大幅缩短药物研发时间、降低研发成本并提高成功率。也就是说,AI已经按下新药研发的“加速键”,并为推动产业发展乃至人类社会进步描摹着更加广阔的前景。

药物研发走入“倒摩尔怪圈”,AI成为产业破局关键

英特尔:助力AlphaFold2性能提升,加速开启药物研发新里程

由DeepMind在2021年发布的AlphaFold2,当属目前AI制药领域最重要的算法。它自身在蛋白质结构预测上具有极高的可信度,能够对有机体构成、运行和变化的规律开展更深层次的诠释和探究,进而可为生物学、医学、药学等领域的未来研究与发展提供高质量的生物学假设。

2021年,AlphaFold2成功预测出了超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。这项成果的诞生,让科学已知蛋白质3D形状的查询工作,从原来的不可能,变得像使用搜索引擎一样简单。

毫不夸张地说,AlphaFold2凭借自身在蛋白质结构预测上的高可信度,以及远优于传统实验方法的高效率、低成本,树起了一座“AI for Science”的全新里程碑。它不仅在生命科学领域掀起了颠覆式的革新,也成为了AI在生物学、医学和药学等领域落地的核心发力点。

药物研发走入“倒摩尔怪圈”,AI成为产业破局关键

  • 违反常识!CPU速刷AlphaFold2竟能更顺畅

随着越来越多的科研机构、实验室和企业开始借助或计划采用AlphaFold2进行蛋白质结构预测,它亟须更广泛IT基础设施的支持,来推进实实在在的部署和落地。于是,英特尔开始在有海量用户安装和使用的基础服务器用至强CPU平台上对AlphaFold2进行端到端的高通量优化尝试,这一试,一切都随之改变。

2022年,英特尔先是报出第一波优化成绩——它以第三代至强® 可扩展平台为硬件基座,通过优化让AlphaFold2通量提升达到了优化前的 23.11 倍。

2023年,针对不断攀升的算力需求,英特尔又出动了第四代至强®️ 可扩展处理器,其新增了全新的内置AI加速技术——英特尔®️ AMX,可为对于深度学习工作负载来说至关重要的矩阵乘法提供更优的算力支持。这项技术可助每个核心存储更大的数据块,并在单个指令操作中完成更多的矩阵运算。而且除了算力上的倍增,矩阵运算的完全硬件化,还减少对系统缓存和内部寄存器等资源占用,保证CPU AI加速流水线运行得更加流畅。

结果不负众望,第四代至强®️ 可扩展处理器的引入,使得AlphaFold2的通量在第三代至强®️ 可扩展平台优化的基础上再获高达3.02倍的提升。

在英特尔开展相关探索的同时,国内已有云服务提供商也通过与英特尔的合作,在参考英特尔优化经验的基础上提出了创新的、基于公有云应用和交付方式的方案,并通过一系列测试,得出了基于第四代英特尔®️ 至强®️ 可扩展处理器的加速方案相比于某主流GPU,在通量上更优、在性价比上更为出色的结果,该团队还发现,当运行的任务序列长度超过300或400个氨基酸的情况时,几乎只有CPU能够成功算完,而GPU的失败率会很高。

要知道,AlphaFold2在AI for Science领域一直被认为是最吃AI专用加速芯片、如GPU红利的前沿技术。上面这些成果的释出,就意味着CPU也能在AI for Science领域占有一席之地,并发挥巨大、而且是出乎大家意料的威力。

· 五大步骤、四大“强芯针”,至强®️ 可扩展平台助力AlphaFold2推理性能显著提升

说完成绩,我们再来瞧瞧至强CPU是如何实现这一奇迹的,开篇一句话,即AlphaFold2结构预测各环节面临着庞大的计算量,使用者需要更加充分地挖掘硬件的计算潜力来提升执行效率。

因此,针对AlphaFold2的设计特点,英特尔提供的AlphaFold2端到端全面优化方案聚焦在预处理和模型推理两个层面,在第三代和第四代英特尔® 至强® 可扩展处理器上具体分为:

第一步,预处理阶段:借助第三代或第四代英特尔®️ 至强®️ 可扩展处理器的多核优势及其内置的英特尔®️ AVX-512技术的高通量优化。

第二步到第五步,模型推理阶段:将深度学习模型迁移至面向英特尔® 架构优化的PyTorch;对迁移后的代码进行一系列的API改造,在不改变网络拓扑的前提下,引入PyTorch Just-In-Time(JIT)图编译技术,将网络最终转化为静态图;再切分Attention模块和算子融合;最后借助英特尔® 至强® 可扩展平台提供的高效且更为均衡的计算和存储优势破解多实例运算过程中的计算和内存瓶颈。

在基于第四代英特尔® 至强® 可扩展处理器的优化工作中,英特尔基于:(1) 借助TPP技术,降低推理过程中的内存消耗、(2) 支持DDR5内存与大容量缓存带来张量吞吐提升、(3) 英特尔® AMX_BF16在保证精度的前提下加速推理过程、(4) 高带宽内存HBM2e增加访存通量这四剂“强芯针”,让AlphaFold2的推理性能获得了更进一步的提升。

· 强强联合,英特尔持续为蛋白质结构预测降本增效

事实上,除了有内置了AI加速技术的CPU产品用来加速推理,英特尔同样也有自己的异构平台布局,其专用的AI加速芯片,一样可以对整个蛋白质结构预测平台上的各种任务提供有力的支持,而且性能更好,而这些加速芯片与CPU的组合,就让英特尔® 架构能够更好地适合差异化的应用场景,顾全推理和训练的需求,并更灵活地兼顾在成本和性能上的目标。

Github上知名的AI+科学计算的开源项目——Colossal-AI的团队就与英特尔Habana技术团队合作,充分利用Colossal-AI大模型优化能力,推出了使用至强®️ 可扩展处理器进行数据预处理,并采用Habana®️ Gaudi®️ AI加速器优化AlphaFold2模型推理的方案。

据该团队透露,相比他们此前使用的方案,AlphaFold2端到端推理速度最高提升3.86倍,相较GPU方案,应用成本最多降低39%!

Colossal-AI团队上述尝试中使用的还是Gaudi芯片,而Habana️® Gaudi2️® 的发布也已近在眼前,据悉7月它就会正式与用户们见面,并且在6月27日刚刚发布的MLPerf新一代测试报中,它已经有了先声夺人的表现——不论是大家非常熟悉的BERT、ResNet、Unet模型,还是最近半年异军突起的大语言模型GPT-3,Gaudi2️® 都有非常靓眼的表现。

据悉,除了Gaudi2® 这样的AI专用加速芯片,英特尔更偏向通用加速场景的数据中心GPU Max系列也于近期完成了在美国阿贡实验室Aurora系统中的安装工作,它未来可能更适用于AI+科学计算的融合式应用场景。

不难看出,英特尔未来在AI或整个企业计算领域的异构多芯布局,已经在脚踏实地地走向现实,就更别提它还会为这些硬件产品搭配可以进行统一编程、轻松迁移并能跨异构调度算力资源的oneAPI软件工具包。业界有理由期待,它将为我们提供更多也更好的新产品、新技术,对蛋白质结构预测的推理和训练等各种任务,乃至生命科学和制药领域的更多科研方向,输出更有力的支持。

有一个方向值得一提,即随着大模型时代的到来,一直致力于将先进AI技术与前沿生物技术相结合的百图生科,也开始深耕生命科学大模型驱动的AIGP(AI Generated Protein)平台,旨在利用AI从预测蛋白质结构到直接生成和设计蛋白质。

未来,是否还会有更多AI辅助的生命科学研究和制药领域的创新?是否还有更多算法可以在生命科学和医药创新领域里找到机遇和探索的空间?让我们拭目以待。