演讲:王紫东

编辑:华卫

克莱森折叠门体系_华为MindSpore当生物计算领域遇灾MindSpore做了何解 推拉门

疾病治疗和新药研发当中,多尺度建模发挥着重要浸染。
而当传统科学打算办法碰着生物医药这类没有方程式可寻的问题时,亟待 AI 技能的加持。

9 月 2 日,在 2022WAIC 上海生物打算论坛上,华为中心软件院昇思MindSpore 开源项目架构师王紫东揭橥主题演讲《MindSpore AI + 科学打算实践》。
演讲中,他紧张先容了传统生物打算领域中的发展瓶颈以及 MindSpore 在这方面所做的事情。

以下为王紫东在 2022WAIC 上海生物打算论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:

大家下午好!
很高兴有机会和大家一起分享 MindSpore 在 AI + 生物打算方面做的实践。
MindSpore 之前是传统的 AI 框架,目前正向 AI + 科学打算领悟的通用打算架构演进。

总体上讲,我们的实践是在高毅勤老师课题组辅导下,共同互助完成的。
研究中,我们紧张从基于力场的分子仿照入手。

分子仿照的运用与寻衅

借助分子仿照技能,我们可以仿照化学反应、蛋白质折叠以及同一物质在不同状态下的相变等;在行业之中,分子仿照也是比较主要的技能,如材料设计、药物设计、化工设计等场景都离不开分子仿照。

同时,基于力场的分子仿照也是微不雅观天下探索中的关键问题。
针对这样的问题,研究者做了很多的探索,目标是在更大的空间尺度和韶光尺度上得到精确的分子仿照,以揭示微不雅观规律。

针对微不雅观天下,最有效的武器即为量子力学。
保罗狄拉克曾说,「在有了量子力学之后,大部分物理化学征象的基本定律是完备已知的,困难在于实际运用中方程过于繁芜无法求解。

量子力学实质上是求解薛定谔方程,但薛定谔方程没办法处理较繁芜的体系,只要粒子数大于 2 就没有办法求解。
以是只能进行近似求解。
学界为了针对更大体系进行分子仿照,发展出了很多方法,如分子动力学、粗粒化动力学和连续介质力学。

虽然能仿照的分子体系越来越大,但是精度在逐渐低落。
以分子动力学为例,它利用第一性事理数据或者实验数据进行参数拟合,得到体系势能函数,也便是我们常说的分子力场。
这种方法算得快,但精度很受限定,没有办法仿照精确的化学反应。

事实上,分子仿照一贯处于仿照精度和效率无法兼得的状态,我把它归结为维度灾害。
在这样的瓶颈下,现在已经有一些方法在办理这个问题,最紧张的便是 AI。
尤其是机器学习在解维度灾害问题上很有履历,也产生了一定结果,以是传统科学打算领域往后可能会成为 AI 的主沙场。

「AI + 分子仿照」的造诣

现在,AI 和分子仿照已经开始进行领悟,并且产生了有打破性的事情。
这里我们看两个案例。

第一个案例 DeePMD,它紧张是用 AI 神经网络去拟合分子力场,演习数据来自于第一性事理打算数据。
DeePMD 兼顾精度和性能,并且得到了 2020 年的戈登贝尔奖。

案例二是 AlphaFold2,这是非常有打破性的成果,它更倾向 AI 思路,可以从海量数据中直接学习序列至构造的高维映射,效率比较高。
令人惊喜的是,它的精度可以与实验精度相媲美,并被评为十大科技进步之首。

新一代分子仿照软件

AI 方法已经改变了传统打算的范式,成为一种新的可能性,软件上也要有相应的支持。
我们来看一下现有软件能不能较好地支持 AI 新的范式,实在答案可能并不是很乐不雅观。

主流分子仿照软件有这么几个特点:第一是开拓韶光长,用户依赖性强;第二是险些都由西方发达国家开拓,由中国人开拓的仿照软件极少且用户有限;第三是仿照框架老旧,灵巧性差,如需添加新算法,每每须要对程序代码进行大幅改动;第四是程序多用 C/C++,乃至 Fortran 措辞编写,难以兼容目前主流以 Python 为前端措辞的 AI 框架。

要想支持这种新范式,可能还是有很多路要走,现在做得并不是特殊好。

在这样的背景下,MindSpore 和高毅勤老师课题组一起开拓 MindSPONGE,我们把它称之为新一代分子仿照软件。

体系架构如何?

这是我们已知的第一个根植于 AI 打算框架中的分子软件,冲破了传统 AI 和传统分子仿照打算的界线,并对它们的架构做了统一化的建模,取得了较好的效果。

我们创造,分子仿照和深度学习的演习虽然看着彷佛没什么关系,但实际上有相似的打算逻辑。
比如,深度学习演习是要优化一个丢失函数,分子仿照可能跟它是差不多的,只不过固定的是参数,参数指的是分子力场,再去优化以空间坐标为主的样本。

进行模块化拆分后,我们把 MindSPONGE 分为三大模块:系统建立、力场配置和迭代更新。
我们有这么几个上风:1. 易用,无需推导原子受力的解析表达式;2. 高效,天然支持高通量仿照;3. 模块化,兼容 AI 势能函数。

有哪些案例实践?

这里举几个分子动力学的案例。
分子动力学紧张是知道分子下一步怎么动,这里面的核心便是分子力场。
不管是构建分子力场,还是利用分子力场,MindSPONGE 都供应了非常方便的利用接口。

比如,克莱森重排有七元环与三元环转换的动力学过程,用我们自己演习的 AI 力场,以第一性事理精度去做动力学的迭代,精度及效率会优于传统方法。

其余,我们对新冠病毒 Delta 变异毒株也进行了仿照。
仿照结果创造,Delta 变异时,其氢键数目和打仗面积相对野生型毒株有一定增加,这可能便是 Delta 毒株传播力强的缘故原由。

我们整体依托昇思MindSpore,使能 MindSpore 核心技能图算领悟。
MindSPONGE 的性能相较于其它框架有一定的上风。

DeepMind 开源了 AlphaFold2,这对付业界在该领域发展具有巨大的推进浸染,但是其并没有开源自己的演习代码,也没有供应对应的数据集。
同时,对付开源出来的网络权重,其有着非商用的 License。
对付科研而言没有风险,但对付商业运用的话,存在一定的侵权的问题。

算法层面紧张有两个问题,问题一:AlphaFold2 依赖于共进化信息,当共进化信息缺失落严重时,蛋白构造预测精度会大幅低落。
问题二:当存在多个模型推理出来的蛋白构造时,没有统一的算法评估这些构造的质量,这会导致无法选择最优的构造。

软件层面的问题紧张为算法的内存花费,算法占用的显存与序列长度是立方关系,如果根本软件内存优化做得不好,很随意马虎导致显存爆炸。
同时,推理时性能紧张花费在共进化信息检索。

针对上述不同层面的问题,我们协同高毅勤老师课题组一起进行了一些探索。

首先,我们复现了 AlphaFold2 的推理和演习,还构建了数据集,并把它开源出来,大家可以基于此数据集演习自己的模型。
对付处理性能,如最耗时的前端搜索 MSA,我们都进行了优化,这项事情我们是在 4 月份完成的,当时去参加了 CAMEO 比赛,取得了较好的结果。

第二步,针对算法上依赖共进化信息的问题,我们利用了人工智能领域天生模型的思路,同时借鉴了 diffusion model 的模型构建思路,针对一些孤儿序列,构建了对应的 MSA 信息,取得了较好的效果。

末了,我们在蛋白质构造如何评估、如何挑出最好的蛋白质方面做了一些事情,表现也是良好的,比赛成绩精良。
这项事情会在近期进行开源,如果大家感兴趣可以关注一下。

蛋白质构造预测和分子动力学这两个案例故意思的地方在于,可以联动。
很多时候,构造并不符合物理的规律,可能很多蛋白质是可以连续优化的,很多位置是有冲突不合理的,这时须要分子动力学仿照来做进一步的动作,也便是蛋白质构造松弛。

当前 AlphaFold2, 在网络推理利用 JAX,分子动力学过程则利用 OpenMM 进行。
由于 MindSPONGE 有统一建模的体系和工具,能够把蛋白质构造预测做一体化的推理,会给出更合理的构造。

还能供应什么能力?

此外,模型的内存和性能还有很多值得优化的地方,MindSPONGE 也供应了相应的办理方案,我们称之为 SOMAS 技能。
该技能紧张是并行拓扑内存约束优化器,可以对所有内存进行统一统筹管理,效果还是比较明显的。

性能方面,MindSPONGE 具有图算领悟的特性,可以把小的细碎算子融成大算子,模型的整体性能会因此有提升。

传统优化改进到元优化

这里,对 MindSPONGE 的未来进行一些展望。

基于分子力场的仿照,分子力场肯定是最主要的。
传统优化办法紧张还是靠人工履历,比如先有力场,就可以做环境的仿照,仿照出的分布很可能不符合实验结果,这样就会产生偏差;传统办法是通过人进行剖析,是不是有些参数可以改一改,再去考试测验一下。

相对来讲,这样比较盲目。
MindSPONGE 采取的则是元优化办法。

现在,我们还有很多东西没有做完,后续希望把流程都打通,也希望和大家一起互助构建。
这里感谢高毅勤老师课题组,也感谢所有社区贡献的小伙伴们!

末了, MindSpore 不但针对生物打算方面有相应的实践,我们在汽车、能源、气候、航空航天、EDA、材料、金融等方面都有方案。
希望通过支撑更多行业运用,帮助互助伙伴商业落地,完善我们国产根本软硬件的能力。
目前已经有的,紧张是电磁仿真、流体仿真、分子仿照。

我们并不懂行业的技能,如果没有行业专家的参与,我们根本不知道做的这些东西对不对,以是希望和大家多多互助。
如果大家感兴趣,可以随时联系我,感激大家!