AI+材料科学:人工智能提速新材料发现
AI+科学系列     2020.12.11


▍ 摘要


传统的材料研发模式主要依赖试错的实验方案或偶然性的发现,其研发过程一般长达10-20年,在很大程度上已经无法满足21世纪工业发展对新材料的需求。随着信息科技的逐渐成熟,人类通过计算系统或人工智能发现新材料成为可能。人工智能和材料科学的结合充满前景,但依然存在挑战。

 

2020830日,未来论坛YOSIA Webinar第五期“AI+材料科学邀请了材料计算学、材料表征及材料基因组学的学者,围绕人工智能提速新材料发现的主题,分享如何利用人工智能加速对材料结构和性能的了解,并与传统材料研究的学术界和产业界代表,一同探讨AI应用于材料科学研究的价值和效能。


点击链接观看视频:https://v.qq.com/x/page/n3145yvrcec.html



▍ 分享嘉宾


主持嘉宾:

·       周华,美国阿贡国家实验室物理学家

 

主讲嘉宾:

·       汪洪,上海交通大学材料基因组联合研究中心主任,“致远”讲席教授,中国材料试验标准委员会(CSTM)材料基因工程领域委员会主任委员

·       刘宜晋,美国SLAC国家加速器实验室斯坦福同步辐射光源Lead Scientist

·       胡嘉冕,美国威斯康星大学麦迪逊分校材料科学与工程系助理教授

·       刘淼,中国科学院物理研究所特聘研究员,博士生导师,atomly.net创始人

 

讨论嘉宾:

·       尹万健,苏州大学能源与材料创新研究院教授,博士生导师



▍ 主题报告

汪洪:数据驱动的材料创新基础设施

人物介绍:获美国伊利诺伊大学材料科学与工程博士,曾在美国任职于SONY、松下、Guardian Industries等跨国公司,研究薄膜材料及其在半导体、平面显示与建筑节能中的应用。2010年起在中国建筑材料科学研究总院开展建筑节能镀膜玻璃、智能玻璃与太阳能光热材料及产业化技术研发。曾担任中国工程院、中国科学院材料基因组重大咨询项目专家。当前研究集中在材料基因工程理论,高通量材料制备与表征技术及机器学习在材料中的应用。

 


这次的演讲题目是《数据驱动的材料创新基础设施》,材料创新一直处在各种颠覆性技术革命的核心,常用作时代的标志。


新材料发现的传统过程有几个特点:


一是偶遇,即材料的用处是无意中想到的,偶遇最早期发现新材料的方式;

 

二是科学直觉,当有一定经验以后,人们便开始形成科学、系统理论;

 

三是实验试错,直觉产生以后,测试材料是否有效则取决于大量的实验试错的过程,过程非常耗时、费力昂贵。

 

当今社会对我们提出了新的要求,因此材料发现的模式也要向可预测、可设计进行转变。


研发模式的理想状态是按需设计,任何材料从理论上计算即可获得。但现实是,今天的模式基本依靠尝试。

 

在未来,希望能够通过已知知识、计算、预测即可得到某种我们所需求的材料,这里的关键是预先得到相关材料的成份、结构、工艺以及性能之间的关系,关系是实现材料按需设计的前提。

 

 

如何找到这个关系呢?首先,向其他领域学习,例如生物学里有生物基因的概念,了解基因即可了解家族病史、病因,然后采取治疗措施。同样,如果我们掌握材料中的性质基因,那么也就掌握了按需设计的钥匙。

 

其实,物质世界比生物世界更复杂,生物基因只是物质的一种,而且是相对简单的一种。而关于材料基因,行业一直有质疑,因为,在经过了若干年的探讨后,我们仍不知道如何去定义材料的基因。

 

但当前达成共识的是:存在材料基因组或材料基因工程,即预测型高效获得成份-组织-工艺性能之间关系的方法论。因此,当前并没有材料基因的定义。


 


美国曾在2011年提出了一个名为材料基因组的科学计划。具体的材料基因组计划主要任务是建立一个新型材料创新的基础设施,目标是材料从研发到应用的速度加速至少加快一倍,成本降低一半。里面也提出了一个新的材料创新逻辑,具体包括:

 

1、发展计算工具,通过计算逐步替代耗时费力的实验过程、发展高通量材料实验工具:

2、发展高通量材料实验工具,更快地进行材料验证和筛选;

3、发展材料数据库/信息学工具,有效管理从研发到应用全过程材料数据链。

 

基于上述,我把材料基因工程工作模式总结为三点。第一点,实验驱动,本质上还是靠尝试,是基于高通量的合成与表征的实验。可以直接优化和筛选材料,从一个一个试到一批一批试,量变引起质变。

 


实验驱动的典型技术是1970年提出的组合材料芯片制备,基于此技术后来进行了很多组合化学、组合生物的实验;1990年代中期,美国劳伦斯伯克利国家实验室Lawrence Berkeley National Laboratory的向晓东等科学家,受到电路芯片和基因芯片的启发开展了通过组合薄膜方法构建相图的工作。

 

 

第二种模式叫做计算驱动。通过理论计算模拟,预测有希望的候选材料,缩小实验范围,从而便于直接用实验验证。目前,这种办法已经应用广泛,而且在各个不同尺度上,衍生除了连续体方法、介观方法、分子动力学、第一性原理方法。

 

里特别讲一个热材料的案例,通过用一批已有数据然后筛选,通过计算去预测它可能的优化效果,最后用实验验证。

 

这种模式的案例如上图所示—热点材料。通过用一批已有数据进行筛选,通过计算去预测它可能的优化效果,最后用实验验证。


 

 

第三个模式是数据驱动,基于机器学习和数据挖掘(材料信息学),通过大量数据,通过机器学习建立模型,预测候选材料。对这种模式启发最大的一篇题为《Machine-learning-assisted materials discovery using failed experiments》的Nature文章。文章中利用了实验室的失败数据进行机器学习,得到模型以后对新材料预测,结果是:准确率比人工判断更高。换句话说,这篇Nature文章把多年无人问津的数据进行了有效转化,所以,实验数据没有正误之分,只要实验正常进行,得到的结果就是客观规律的真实反映,只不过结果好坏有区别。


 

现在回过头来看研发路径的两种思维。研发程序中往往会有起点和目标的设置。传统研发路径围绕目标逐步趋近;而在大数据的环境下或者数据驱动的环境下的研发路径,先利用在研发过程中获得的大数据,然后通过机器学习形成模型,最后通过模型进行预测。

 

 

这两种研发思维的根本区别与人类对世界认识的演化有关。几千年前,人类认识世界的方式都是通过实验观测,积累了一定实验观测经验后,开始理论推演,用数学语言描述世界上发生的现象;然后,在上世纪中叶,计算机出现了,于是开始有能力进行计算仿真;现在随着数据量和计算能力爆炸性增长,科学研究开始进入大数据+人工智能的第四范式。

 

回顾前面三种模式,实验驱动和计算驱动是基于事实判断或者物理规律的推演,并没有根本上改变原有的思维模式,数据驱动则是具有革命性的,因为人工智能方法擅长建立数据间的关联关系,是传统认识模式的补充和延伸。就像一个工具箱里增加了一项新工具,新工具可以做原来做不了的一些事情,因此具有颠覆性的效果。

 

材料科学很可能就成为人工智能新应用热点。DeepMind创始人、AlphaGo之父Demis Hassabis,在围棋上获得巨大成功后,在一个访谈曾经提到:下一步若将AI技术应用到材料当中,或许可以从中可以得到想要的结果。

 

因此,数据驱动是材料科学未来重要的发展方向。数据驱动是一个新工作模式,需要全新基础设施的支持才能发挥充分效力。数据驱动所需要围绕数据协同和数据交叉来开展工作,也就是需要建立以数据为核心的集高通量实验高通量计算材料数据平台三位一体的综合性创新平台。

 

上图是材料基因工程基础设施框架,这个基础设施包含数据生产、数据分析、数据应用。其中,数据生产是实验平台和计算平台;分析部分需要数据库和人工智能工具库。

 

值得一提的是,刚才提到的科学第四范式,其基本前提是:材料的数据,没有数据一切是空谈。首先要解决数据够用、好用的问题。客观上,尽管现在材料数据已经积累了一两百年,但材料数据仍然高度匮乏。下表中可以看出,二元数据还较多,三元及其以上比较少。

 

因此,高通量实验和高通量计算在数据驱动环境下可以看作为获取大量数据的有效途径。我提出的方案是建立数据工厂,批量产生高质量的基础数据。这里需要一个专注的、聚焦于数据生产的环节。

 

建立数据工厂的思维是数据产生环节的革命性变化,这意味着:

1、全面的材料数据将被大规模地有意识地产生,不再作为分散的具有特定目的的实验或计算的副产物;

2、数据产生由个体活动转变为有组织的社会活动;

3、数据的社会属性从私有财产转变为公共资源;

4、数据的质量、一致性和全面性将得到提高,数据共享变得更加简单,社会总成本也将降低。

 


什么叫数据工厂?分为两个部分:计算数据工厂、实验数据工厂。其中,计算数据工厂叫做高通量计算平台;实验数据工厂可以看做高通量制备与表征平台。

 

有了数据工厂,也就有了足够数据,接着就需要解决数据好用问题。数据好用要符合科学界提出的FAIR四原则,即可发现、可获取、可互操作、可再利用。换句话说,就是数据看得见、拿得到、听得懂、用得着。


 

 

中国在这方面进步神速,国内已经组建了中国材料与实验团体标准委员会、组建了全球第一个材料基因工程领域委员会。我们首先制定了世界上第一个材料基因工程的数据通则,规定数据当中需要有哪些信息、哪些内容,制定了材料基因工程领域标准体系。当然,这会是非常庞大的综合的体系,并不是一两个标准能够解决的,而是要有一个完整体系,最终可能涉及成百上千个细节的标准。

 

最后,总结一下,整个内容有两点:

第一,数据驱动模式是材料基因工程发展的核心问题。

第二,要开展数据驱动模式,需要新型的基础设施来适应,通过这个过程满足大量对数据需求和数据质量的需求。


   

刘宜晋:X射线大科学装置与人工智能在先进材料表征中的应用

 

人物介绍:2000-2004年:中国科学技术大学物理系光学学士,2004-2009年:中国科学院高能物理研究所与中国科学技术大学联合培养光学博士,2009-2012年:美国斯坦福大学电子工程系博士后,2012年至今:美国能源部SLAC国家加速器实验室副研究员(2012),研究员(2015),Lead Scientist2020)。刘宜晋博士所带领的科研团队应用同步辐射和自由电子激光等大科学装置,深入开展针对能源材料领域的多尺度多维度研究。相关科研成果发表在Nat. EnergyNat. Commun.JouleChemJACSEESAEMAFMACS Energy Lett.Nano Lett.Acc. Chem. Res.Nano Energy 等知名期刊上。2007年获得中国物理协会同步辐射专业委员会颁发的青年之光优秀青年论文奖,2016年获得斯坦福同步辐射光源颁发的Spicer青年科学家奖

 

这次演讲的题目是《X射线大科学装置与人工智能在先进材料表征中的应用》,整个报告涉及四个方面的内容:物(Material)、务(Research)、悟(Insights)、骛(Perspective)。

 

先来介绍物,它是我们复杂的研究对象。研究“物”需要先进的大科学装置提供强有力的工具。而在研究的过程中难免产生大量数据,这时便需要先进计算方法,从数据中获取知识。


 

 

我们以电动汽车为例,一台特斯拉汽车7000多个结构单元18650的电池,虽然通过结构图看似很简单,但在充电和放电的过程中,液态电解液里的正极、负极,电子和离子通过外面的通路和里面的电解液来回传导,其实是非常复杂的结构。

 

每个18650的电池都像山楂卷一样,结构是一圈一圈的。如果把正极材料拿出来观察,可以看到里面有千千万万的颗粒,这些颗粒有大有小,以不同方式组合在一起;如果看每个单个颗粒,还有很复杂的内部结构;继续放大看到原子尺度,可以看到有不同的晶格象。因此,这样复杂的体系给我们的研究工作造成了一定困难。


 


研究对象的复杂性,不仅在于我们预先设计好的结构复杂性,更在于材料在工作环境下的动态变化。举个石油化工领域中的例子,原油开采出来之后经过催化裂化反应,会产生各种各样有不同用途的产物。这一过程伴随着毒性金属在催化材料上的逐步堆积,降低催化性能。这个现象导致了全球每天将消耗掉两千吨的催化材料。我们可以对这个复杂体系做很细致的表征,采集非常高分辨的三维结构,从中找到有化学活性的区域。但问题在于这个材料在其工作环境下发生的动态变化是很复杂的,这给我们进一步造成研究的困难。

 

解决这个问题需要先进的实验装置(务)。下面介绍SLAC国家实验室拥有的两个大科学装置:SSRL同步辐射和LCLS自由电子激光。这两个装置的原理是相通的:电子在高速运动的过程中,当运动方向发生改变,会辐射出高质量的X-ray,利用X-ray我们就可以做各种各样的实验。


 

 

举例而言,如上图所示,研究钇钡铜氧的工作,研究者是我的同事Jun-Sik LeeChi-chang Kao,钇钡铜氧作为一种经典的超导材料,对强磁场脉冲的响应。在研究过程中,我们需要把非常强的磁场脉冲打在样品上,同时用X-ray的脉冲去探测这一瞬间的信号。

 

经过努力,研究者找到了一个微弱的衍射信号,能够代表了材料内部在强磁场的作用下发生的一些改变。又因为现在自由电子激光装置重复频率较低,所以一个磁场脉冲只采到一个数据点,但正在进行中的LCLS-II改造将从120赫兹升级到1兆赫兹,即在一个红色的磁场脉冲里可以采集到一系列的X-ray脉冲数据,将数据量提高好几个数量级,从而大大提高实验效率,从根本上改变现在的研究方式。


 

 


另外一个例子是上海瑞金医院的张小伟老师和陈竺先生主导的砒霜治疗白血病项目。研究成果是把白血病的五年存活率从56%提高到85%。研究过程中,在北京同步辐射上采集到了很细致的吸收谱,通过一些模型和计算得到了重要结论。


 

 

随着技术的进步,数据量得到了大大提高,例如可以利用阵列探测器配合吸收的数据采集。在2000×2400百万个像素同时工作的条件下,15分钟的时间内可以采集到400万条吸收谱。如果把技术用在三维成像上,10个小时的时间范围内,可以采集到大概10亿条的吸收谱。这样大量数据也给我们提出了新要求:需要用新的办法从数据中出知识。


 

 

关于,我举一个例子,对于复杂的电磁材料,传统的同步辐射谱学方法可以用一个较大的光斑采集吸收谱,大光斑覆盖了千千万万的颗粒,得到的信息是大量颗粒的平均现象,并无法得知颗粒和颗粒间是否有不一样或者每个颗粒内部会发生怎样的不均匀性。利用谱学成像的方法能有效解决这一问题,也能给我们带来了更多科研机会。

 

谱学成像虽然很高效,但数据处理的流程需要有一些假设,就假定对研究的材料体系有一定了解。因为,如果知道这个材料体系中可能出现什么样的化学态,那么就可以用标准谱对数据进行拟合,进行表征,最后得到三维结果。但是问题在于:如果所研究的材料体系里面发生了一些没有遇见到的现象或者反映,所得效果就不会太好。

 

怎么办?这就需要借助更加有效的科学计算方法。例如可以对数据进行聚类运算。聚类方法有很多,如何才能把现有的方法整合到工作流程中去?

 

 

如上图所示的工作,从正常情况下循环的电磁材料中得出了一系列的数据,然后用数据进行聚类分析得到聚类结果。聚类所得的不同类,代表反应有不均匀性。基于以前的经验,我们得知:化学成份的存在并没有对电磁的宏观性能产生非常重大的影响。因此,可以把另外一个电磁的数据(即在比较极端条件下循环采集的数据)和之前得到的数据进行对比,然后得出一些化学离群值。最后,发现正是这些化学离群值可能会造成一些性能的降低。

 

 

在上图这个例子中,我们把大量数据进行降维处理,包括对数据的聚类,最后可以赋予一些科学解读。具体而言,我们在长循环之后的锂钴氧的正极材料中找到了四种不同化学态,其各自又有自己空间分布。得到这些信息之后,一个对X射线谱学很了解的科学家,配合电池材料、电池化学方面的资深科学家,两者合作可以对数据结果进行科学的解读,赋予其科学含义。


 

 


除吸收谱外,对图像的处理也可以利用人工智能的方法。例如我们对正极材料做了三维的高分辨的成像,会看到这里面有千千万万的颗粒,每个颗粒的形状与破损程度都不同,在40微米厚的电极片顶部和底部所发送的化学反应程度是不一样的,如果想对每个颗粒都进行细致的研究,显然用人工去完成执行过程是非常低效,也会带来很多人为的误差。因此就需要借助机器学习的方法。


 


对于数据,当前有很多传统方法可以对数据进行分割。但有时候,传统数据分割方法失效。具体例子如上图所示,从中间图可以得知,不少正极颗粒在多次循环后已经破裂的不成样子,传统的数据分割很容易把部分碎片识别为不同的小颗粒,但是这些碎片其实属于同一个颗粒。因此,最好的算法需要具备这样的智能:能够把这些碎片组合进同一个颗粒里,然后对此数据开展后续的统计分析。


 

 

其实,在三维照片里识别颗粒和拿手机拍照片是大同小异的。类比用手机拍摄集体照,它可以自动的帮助识别视场里的人脸。无论何种手机,何种操作系统,总是有一定的成功率,但也并不能够把所有人脸都准确识别出来。如上图,如果把一张照片里,把坐在正中间的爱因斯坦漏掉,像我这种物理系毕业的人会表示不可理解。于是,我们不满足于这种成功率,就需要对这些算法进行改进。




由于存在三维数据,那么就可以把三维数据在不同方向、不同的深度进行切割,然后用现成算法对每个方向、每个深度做二维颗粒识别,最后进行数据聚合,从而帮我们识别数据颗粒。可以想象,因为缺乏聚合步骤,所以二维数据识别中可能存在“断层”,从而导致准确率降低。因此,颗粒识别方法比手机识别人脸准确率更高。

 

整个工作思路是:首先,原始数据通过机器学习进行颗粒识别,每个颗粒都提取出来一些特征,然后把特征作为输入,用另一个机器学习的模型预测它损坏的点。

 

最后讲讲我的理解和展望。大科学装置的最新发展给我们提供了很多强有力的实验工具,带来了科研的机遇。但大科学装置本身是很复杂的,如果你去SLAC中央控制室,会发现控制室里到处都是电脑屏幕。想要控制好、优化好不是那么容易的事情,毕竟,如果简单调整一些参数,也可能会有一系列的连锁反应。如何优化、如何帮助我们真正用好大科学装置,人工智能大有可为。

 

由于研究对象非常复杂,且是多尺度、多维度的,很多成份间还会相互影响、动态演化。应对这种研究对象,理想实验流程应该是:先有理论预测;然后在理论预测的指导下设计复杂实验,目的是对样品环境进行调控,让其能够反映真实样品行为;随后需要实时进行数据筛选和数据处理;最后对数据进行有效数据挖掘,从数据中总结一些规律,并用这些规律指导理论模型,而这些理论模型能够作为下一个流程的基础。上述流程需要各种各样不同的科学家共同参与,包括但不限于实验科学家、X-ray科学家、数据科学家、理论科学家。


 

胡嘉冕:材料显微结构及性能关联的机器学习

 


今天的演讲题目是《材料显微结构及性能关联的机器学习》,材料显微结构及性能关联在自然科学领域是属于非常古老的问题,在材料科学领域里也属于核心问题之一。但对于数据科学领域来说,还比较新颖,存在很多机遇和挑战。

 

首先用一个例子说明材料显微结构的重要性。上图展示了用于喷气式飞机的三种不同涡轮叶片,它的显微结构从左到右分别为等轴晶、柱状晶、单晶。其中,单晶是里面原子排布方向全部一致,全部朝一个方向排布;柱状晶里面的原子排布方向并非单一,同时它经历的形状会具有很强的各向异性,和柱子的形状非常相似;等轴晶里面的原子排布呈多样化,它上面微小的区域,名为晶粒,每个区域里原子排布都具有特定取向。

 

以上三种涡轮叶片,单晶涡轮叶片高温逆损性最好,它可以更加耐疲劳、耐高温。这是非常重要的性质,意味着叶片可以转的更快、更久,从而为飞机提供更强、更持久的助力。这说明材料的性能是可以通过优化材料的微观结构、显微结构实现显著提升。

 

这次报告也集中在材料的显微结构(Microstructure),以及与它的材料性能的关联。主要回答三个方面的问题:第一,我们为什么用机器学习的方法研究材料科学的核心问题;第二,对于关联,显微结构和性能关联目前有哪些主要的方法,以及它们各自的优缺点是什么;第三,材料领域目前的新工作是什么,其工作特色是什么,最后会展望未来发展。

 

下面开始第一个问题,机器学习现在炙手可热,但是我们为什么一定要用机器学习来研究材料显微结构和性能的关联。换句话说,在什么情况下适合使用机器学习?


 

个人认为有两种情况:

第一,物理模型的计算速度太慢时,可以用机器学习进行加速。



上图是一个实际材料铜的三维晶粒结构,每个小颜色都是独立晶粒;整个材料有成千上万的晶粒。如果采用传统方法,即用基于物理规律的模型,需要构建的模型会非常大,且每个晶粒的信息都要输入到模型里,然后再通过数值求解相关方程计算出性能。显然,传统方法非常费时和费资源。

 

如果采用用机器学习,那么可以绕过这些复杂的物理过程,不用关心材料里面的科学机理,直接对输入的材料晶体结构和输出的材料性能建立统计关联。通俗一些解释就是:机器模型是基于统计规律的模型,而物理模型是基于物理规律的模型。而统计规律的模型的预测速度通常可以是物理模型的成千上万倍。

 

第二,问题太复杂,传统物理模型无法准确建模。举个例子,电绝缘材料的计算场强:存在一个绝缘材料,给予很高的电压,电压强度直到能把它打穿为止。问题来了:能通过不进行实验,完全通过计算机预测材料的高电压承受度么?这个问题看似简单,其实很复杂,其中不仅涉及到电学,如果是固体材料,还会涉及力学、热学等多个过程的耦合。

 

所以,真正通过完全不依赖于任何经验预测,单纯通过计算进行预测电压是非常困难的。任何材料在极端条件的性能预测都是非常大的挑战。例如用作宇宙飞船的金属,会暴露在外太空超低温、超高温、电极辐射环境下,那么预测这种金属就会变得非常困难。

 

那么,有没有解决办法?答案是:收集数据,直接忽略中间的物理过程,直接从输入到输出,建立统计关联。这相当于考试的时候,绕过很多过程,快速直接告诉你答案。


 

 

具体而言,如果要用机器学习进行做材料显微结构以及性能关联研究,有哪几个步骤?现在的模型基本可以分为两个关键步骤:首先转化材料原始数据,找出一个向量或者矩阵,能够包含这个微结构的所有关键信息;然后,将此向量关联到目标性能上。假设一个微结构用X表示,性能用Y表示,机器学习做的事情就是根据已有数据,训练出函数F:X->Y,有了函数之后,对于一个未知的新材料和结构,就可以预测出它所对应的性能。

 

 

难点在于第一步,即在面对很复杂结构的时候,如何找到表和包含所有的关键信息的向量或者矩阵。

 

解决难点的模型大概有三种,第一种描述或者代表显微结构的方法,起源于经典的连续介质理论,常见的方式是叫做Two-Point Correlation Function,能够描述两种空间上的相互关联。具体做法是:引一个函数代表它的物理性质,然后引入两点关联函数,目的是找到任意两种性质间的关联。换句话说,对于特定的物理结构,对任意空间上的一个点,有多少概率能够找到对应的物理态。

 

虽然这是比较成熟的模型,但也存在问题:即使能够做出两点配分图,其维度也会非常高。而包含物理参数的原始数据是三维(XYZ),进行变换之后,它的数据维度可能比原始数据还高,而且包含很多我们人类完全无法理解的

 

这种情况下需要对数据进行降维处理,最常用的降维方式叫做Principle  Components  AnalysisPCA),通过对数据做正交变换,来筛选并保留数据差异较大的维度,舍弃数据差异较小的维度,将高维的数据转化至低维空间,最后用回归分析预测材料性能。这种方式的优点是非常快,但在计算Two-point Correlation Function和做数据降维时,材料微结构信息的损失难以避免,从而影响预测准确性。


 

 

第二种描述材料显微结构的方式是基于图像,这种方式的优点是能够直接读取原始数据。可以把原始数据直接读到卷积神经网络(Convolutional Neural NetworkCNN)里,自动根据图像找到一系列的特征图,能够包含这个结构最重要的信息,然后进一步把数据做简化,关联到目标性能。

 

这种方法的好处有两点,第一是前面提到的可以直接读取原始数据;第二,可以直接得到你所需要的特征图,而且是没有任何偏见,完全自动取得。当然,用CNN处理多晶结构会存在两点问题:首先是不够高效,因为实际材料有成千上万个晶粒,要区分一个晶粒,至少用一个三维像素点表示,成千上万个晶粒,需要很多像素点,逐个读取速度太慢,失去了机器学习的优势;其次,由于卷积神经网络本身的特性,无法考虑两个晶粒间的物理相互作用,由于微观结构的物理相互作用对最后性能影响非常大,所以也会影响预测的准确性。


 

 

第三种描述显微结构的方法是。图和图像,一字之差,区别极大。这里谈到的图是结构化、网络化的数据,通常包含一系列相互关联的独立个体。例如上图左,是文章的引用关系图,其图中的每个点都是一篇文章,点的不同颜色代表文章不同领域,相互的线代表引用关系。这样一个图,即包含了独立的个体,也包含了相互引用关系。

 

上图右,是人和人、人和城市的关系图。图中有两种独立的个体,人和城市,图上的两种不同颜色点代表两类不同个体。而人与人之间、人与城市之间有四种不同关系,于是,我们用4种不同颜色代表这4种关系。

 

社会关系、家庭关系、材料关系都可以用图进行描绘,所以,图无处不在。基于这种图的神经网络就是图神经网络(Graph Neural Network, GNN)。今年上半年机器学习领域顶级会议ICLR的各种关键词的文章统计图显示,包含图神经网络(GNN)关键词的文章增长速率最快,说明GNN的确是当前热门领域,我们做的工作就是把当下最炙手可热的方法应用到多晶材料。

 

 

具体以一个简单的10晶粒的多晶结构举例,我们用10种颜色来代表10晶粒,从1-10把每个晶粒标上号,然后把每个晶粒看作独立个体,每个节点引入一个向量,这个向量用来描述该晶粒对应的物理特性,包括尺寸、形状、取向等等。最后所有向量合并成一个特征矩阵(包含了整个结构所有相关物理信息)。同时,引入近邻矩阵A(最右边那个图),图中13是相邻的,相应的矩阵元A13=114两个晶粒并没有直接相邻,对应的组元A14=0

 

用这样的简单矩阵就可以描述谁是谁的邻居,从而方便后面描述它们的相互关系,例如101并没有近邻,但是能通过共同邻居8实现信息传递,从而让各个晶粒之间的物理相互作用得到考虑。

 

显然,图的方式在处理多晶结构时表现非常自然,每个晶粒对应一个节点,晶粒间的相互作用能通过相互的线进行描述。这种方法与基于图像的处理方式相比,天然上就更加高效,因为图像是一个个像素,而一个晶粒至少包含很多三维像素。


 

 

上图是我们自己搭建的图神经网络结构。同样考虑10个晶粒,数据流过了第一层MPL,每个节点都可以从近邻获取信息,但节点10的信息没办法传到节点1(因为不是近邻),但节点8和节点是近邻。所以,在第二层的时候,把节点8的信息传递到节点1的时候,就等效于把节点10的信息传到节点1

 

如此操作,就可以保证过两层之后所有晶粒的信息都能相互传递,每个结点都可以和剩下所有节点建立联系,根据总晶粒多少,可以选择相应层数来控制想要得到多少个邻居的信息。最后会得到一个很大的向量,这个向量不仅包含了每个晶粒的特征和物理特性,也包含了它们的相互作用。  

 

使用上述模型,我们团队使用少于500个多晶微结构作为模型的训练数据,在测试数据集(testing dataset)上实现了大于90%的预测正确率,这是远远超过目前其他模型水平的。微结构信息学(Microstructure Informatics)的挑战之一是数据量不够。我们这个方法由于在小数据集训练上的优异表现,应对这一挑战是有一定优势的。


 


最后,我分享三点关于此领域挑战和机遇的看法。第一点,数据库的建设和管理,目前材料的数据库主要针对原子结构、晶体结构以及分子结构,对于材料显微结构目前并没有开放的大数据库,同时没有相应的Meta data

 

第二点,对机器学习算法的改进。怎样才能更好的对数据不确定性进行定量分析,怎样才能对机器学习模型本身的不确定性进行分析,怎样理解深度学习网络的学习过程和所获得的预测函数,这些都是当前的研究热点。

 

第三点,机器学习为人人。机器学习包括其他的人工智能方法,在材料领域的应用属于较初级阶段。怎样才能让更多的研究人员把机器学习作为一个工具来辅助研究?做出一个成熟的,易于使用的,专门针对微结构信息学的机器学习软件/平台或有帮助。

 

 

刘淼:数据驱动的材料研究

 

人物介绍:本科就读于中国科学技术大学物理系,后赴美国犹他大学材料系攻读博士学位,2013-2018年进入美国劳伦斯伯克利国家实验室从事博士后研究,2018年初加入中国科学院物理研究所,主攻材料数据科学。他也是松山湖材料试验室、怀柔材料基因平台的兼聘教授。他创建的 atomly材料数据库将14+个无机材料的高质量数据带到科研人员触手可得之处。

刘淼:这次的演讲题目是《数据驱动的材料研究》,整体内容分为四个部分:重要性和必要性、国际趋势、Atomly进展、未来目标。

 

人类的进步和材料的进步息息相关。材料科学进步带领人类社会进步,谁掌握了新材料技术,谁就引领未来。早期人类时代的划分也都和材料密不可分,例如石器时代、青铜时代、铁器时代。

 

随着材料合成工艺的进步,总的趋势是从自然材料到人工合成材料,从无机材料、金属材料到现在的材料种类多元化,例如有机、半导体等材料。

 

我们的生活中基本上都是一些人工合成的材料,比如制造航母需要特殊的钢,制造锂电池需要钴氧化物,石油化工给大家提供了塑料、橡胶类材料。例如马斯克发布的NeuraLink进展其中的导线材料需要保证长时间浸泡在身体溶液里不被腐蚀。所以材料进步是基础支撑

 

 

但材料研发模式导致材料的发展非常缓慢。如上图锂电池、Teflon、钛、金刚石的统计,从材料的发明到材料的商业化,这中间需要经过将近18年的时间。


 

 

为什么材料研发过程这么慢?这和材料研发模式有关。爱迪生实验了上千次,才找到竹炭做灯丝,即使爱迪生上千次的试错,也并没有找到最好的材料,直到60年之后,科学家才发现钨可以用作灯丝。

 

随着时间推移、随着材料科学的进步,如今已有更多方式进行发光器件的发明。发光器件这么简单的事情,背后的材料发展却并不简单,经历了120年的漫长过程,才逐渐实现了发光器件的从无到有。

 

从方法论角度观察材料研发过程。工业革命前,基本的材料研发模式是试错;当建立起近代的数理化理论框架后,才可以从理论上对材料发明发现做指导;近代有了计算机,用数值方法求解理论模型的数值解成为现实,从而研发效率大幅提升。

 

我们现在正处在技术革命中,基于数据科学,现在的信息化技术可以带来更广泛材料的创新。


 

 

信息化时代,除了大量材料科学的数据积累,还需要一些人工智能的方式处理这些数据,提取数据间的隐含变量,从而用这些变量指导材料科学的发现。

 

总的来看,材料科学的发展过程是从试错模式到理论预测模式的转变,本质是从弱信息化、弱信息积累的模式向强信息化、强信息积累、信息耦合模式的变迁。核心推动力就是和信息科学的交叉。


 

 

用数据科学的方法,已经证明材料发现的过程会更快。例如,过去70年人类平均每年发现3.3个氮化物材料,加州大学伯克利分校的Ceder组通过高通量计算等材料大数据方法,一年内发现92种有可能材料,并用实验合成7种。


 

 

更进一步,我们用计算和数据的方法,筛选了镁电池的正极材料。镁电池材料概念的验证在大概20年前就提出来过,但是受限于材料科学的发展,一直没有找到合适的镁电池正极材料。我们从数据角度出发,用了Materials Project的数据,加上一些计算的数据,筛选了所有可能的多价态化合物,后通过步的筛选找到若干个有可能合成的材料体系这些材料体系交给了实验科学家,他们的后续合成和测试后,找了硫化钛尖晶石结构镁离子电池正极材料,把储能性能提高了一倍以上。整个工作,从计算到最后实验验证,仅耗时一年半。

 

因此,加速材料发现一个比较好的方式是对材料性质提前做计算和模拟预测,比较常用的方法是基于量子力学的密度泛函理论(DFT)。运用此种方法,只需要给定空间中原子结构,就可以计算出这个结构对应的材料物性性质;此方法无需实验合成表征即可在短时间内预测材料的部分物性;将这一过程交给计算机,并引入高通量计算方法,可以为我们批量生产大量数据。


 

 

最早Materials Project(美国劳伦斯国家实验室)发现可以用这样的方式来积累大量的材料数据。并且,他们在2010年构建了数据库,目前已积累了12万条的高质量材料数据。类似的数据库还有AFLOWNISTOQMDNOMAD等。值得一提的是,我们国家并没有世界级材料数据库。

 

中国是访问Materials Project最多的国家,但在学术环境变化如此之快的今天,如果真有“材料封禁令”的那天,将会对我国的科研产生非常大的伤害。因此,我国的材料科学发展急需此类数据库。在十三五规划期间,科技部、中科院和中科院物理所也提前布局了这一领域的发展规划。


 

 

基于物理所的布局,我们近期构建了材料数据库Atomly.net。基于Atomly材料数据库,可以反复进行DFT计算。同时,我们有一个强大的计算集群,可以高通量计算无机材料、晶体材料数据。Atomly里的数据和信息包括:基本信息&能量&对称性、可视化晶体结构、能带结构&态密度、热力学相图/稳定性、X射线衍射谱。


 

 

后端工作流软件体系包含四个部分,首先是高通量计算,计算机无时无刻不休息的在帮我们做计算,一旦计算机有空闲资源,它会自动提交一个作业,自动做计算排队;其次是大数据分析,当作业结束之后,会进行结果的分析,并将分析结果自动提取,存到数据库里;再者是数据库整合,将结果的分析通过数据库的整合模块,整合到大的数据库中,然后通过网站的前端—Atomly网站前端的架构,查看数据。目前,正在完善的一个步骤是大数据分析的模块,所以,当前已经建立了一套比较初步的,但比较比较完善的用DFT、用密度泛函理论做计算,并不断积累数据的方式。

 

Atomly积累了大量数据,这里举三个数据使用例子。第一,物性预测。通过分析大量材料数据,通过机器学习归纳出材料形成能预测模型,可用迅速判断新材料的形成能和结构稳定性,从而指导新材料设计、稳定性预测等。第二,人工智能拟合势能面。通过人工智能拟合大量DFT数据,得到可以精确原子间相互作用的势函数,从而可以带给业界可以兼顾DFT精度和分子动力学速度的材料模拟新方法。第三,新材料发现。批量计算和分析一系列的材料,系统的分析材料演化规律,从而预测材料研发方向。

 

 

Atomly未来的方向是用一流数据引领材料科研,计划在五年内可以达到更高数据量、更高精度,用更高阶的方法指导和实际应用相关的问题。未来,我们以数据库为出发点,聚焦材料科学相关的相关应用领域,例如合金、功能材料和能源材料。



▍ 跨学科讨论

已有基础设施的助力

 


周华:如何整合和充分利用已有的但分布式布局(特别是地域空间分离的)的各种基础设施,使之成为一个新的以数据为中心的材料基因组集成平台?

 

汪洪:现在各个国家都建立了很多可以称为平台的机构,这与我们的长远目标是完全一致的,这些平台本身都具有产生数据的能力,不同之处是:过去我们习惯的数据形式、内容和未来略有差别。

 

我们制定的材料基因工程的数据通则,充分考虑了未来的需要。过去的数据库,建立了成份、结构和某种性能之间的关联。为了适应未来更加开放、共享和能反复使用数据的需求,我们要把样品、原始数据、由原始数据推导出的或者经过处理的数据打散了包括在数据库当中。

 

制定通则的时候,其核心问题是要建立相应的标准,只要按照一定规则进行,整个社会的机构可以形成一个大的网络,分布式便不再是问题。至于具体如何建立交换机制,我们也在探究中。一个想法是利用区块链技术,既保证数据的真实性和可追溯性,也保证了原本拥有权。在这个基础上数据有足够能力自由流通,这个机构建在什么地方也就不那么关键了。

 

机器学习的策略与优势

 

周华:高通量实验表征的设计与实施应该如何选取和优化?它的挑战和应对策略分别是什么?

 

刘宜晋:高通量实验表征包含两种不同类型。第一种类型是自动化,高效率测试大量不同材料,用这种方式搜索参数空间,寻找最优化组合。如我们最近参与的一个工作:对数据进行实时分析和预判,从而针对性的选择下一个实验的采样点。实验不再简单按照预先设定好的流程,而是有的放矢,能够一定程度上提高实验效率。另一种类型是对复杂的系统用高时间和空间覆盖率,覆盖比较大的视野,用多模态的实验手段,多维度和动态地跟踪材料体系的变化。最后在产生的大量数据中寻找蛛丝马迹,找复杂体系中的蝴蝶效应,将微观现象和宏观性能进行关联。这种工作需要保证数据采样足够多,并且需要非常仔细的验证,最后才能保证结果是统计上可靠的。

 

周华:从机器学习角度和提速材料设计角度来看,“性能需求反溯微结构设计”和“微结构设计优化预测性能”这两种导向,哪种更能发挥AI、机器学习的优势?

 

胡嘉冕:两个问题并不矛盾,材料设计应以优化性能为导向,以找到合适的原材料和材料制备工艺为目的。但对微结构的预测和设计优化不可或缺,从工艺到微结构再到性能(Processing-Microstructure-Property)是一个完整的链。首先,预测不同工艺条件(比如温度、成分、压强等)下的微结构,然后再预测与此微结构对应的性能。接下来,需要做实验来验证在给定的工艺条件下是否能获得相应的性能。如果实验表明预测的性能未达到预期,则需要重新选择其他工艺条件,再重复上述过程直至性能满足预期。关键在于怎样让工艺条件的再选择变得更高效,而不是没有目的地试。在这方面,贝叶斯优化(Bayesian optimization)或可发挥一定的作用。

 


Atomly的不同之处 

周华:数据库和 Materials Project之间有什么样的区别和联系?

 

刘淼:我们更想建立的是一套流程方法。对于高通量计算这种方法来说,它不仅仅只是数据库,国外已经有此类的程序包、工作流和基础设施,给我们很多启发。在建立Atomly以后,我们也可以针对某一类材料做高通量计算,拥有这样的工作模式。

 

我们对Materials Project的方式比较认同,现阶段的成品比较相似。但我们现在的数据量和数据质量,在某种意义已经超越了Materials Project,例如Atomly.net14万个晶体结构的,Materials Project只有7万个。目前Atomly.net数据库已经完成了几乎所有人类已发现的实验结构的计算,现在正在增加的都是人造结构,随着数据积累再过三五年之后大家就可以逐渐体会出差别。

 

周华:从数据驱动推进的角度,例如材料制备和实现过程,产生的庞杂的内容,能否整合到数据库里,帮助材料计算、预测?

 

刘淼:材料科研的第四范式就是用材料数据的积累改变从前个人经验积累的模式。把群体的智慧不断结晶、积累下去,才是根本方式的变化。另外,生产数据的模式不仅仅限于计算,所有可以批量生产高度一致性数据的方法,都有可能有益于材料数据科学,只不过现阶段通过高通量计算获得大批量的数据是比较容易。

 

前面也提到,数据产生过程的数据标准化非常重要,这并非人为规定的数据标准,而是保证在数据库内每个数据之间具有相同标准,具有可比较性,才能让这个数据集扩充下去。

 

我们正在实践这样的事情,第一批的计划是做DFT计算数据库,未来还会有实验数据库,包括各种组合材料方法,各种批量制造材料、批量表征材料的方式产生的数据。

 

描述子的本质

 

周华:尹万健老师的报告中提到,通过数据挖掘可以精炼出简洁的描述符,也叫描述子。因此,描述子的构建如何能反映材料构效更本质的规律?

 

尹万健:要做机器学习,数据质量非常关键。描述子其实是一个化学语言,就是定量描述一个复杂现象的简单标度,一个好的描述子需要两个条件:一是准确,二是简单,太复杂不容易被公众接受。以衡量综合国力为例,大多数国家使用的指标是GDP,虽然它并不算比较好的描述,但却非常直观。

 

先谈谈我们研究催化描述子的原因,因为催化描述子 D-band theory已经非常成功了,我们为什么还要做?从做计算角度来看,D-band theory没有那么简单,至少还需要DFT计算。

 

所以,如果数据库中有十几万种材料的话,就必须把十几万种材料的D-band位置都计算出来,其实,这非常复杂的。于是,我们思考,能否构建更简单的描述子?从而将催化和材料结构、元素联系起来。这时,采用domain knowledge (领域知识)很难建立联系,因此我们采用机器学习进行尝试。可能是钙钛矿体系比较优秀,我们找到了一个比D-band theory更简单的描述子,这个描述子不需要DFT计算,它只和离子半径有关系。

 

所以,网盘们通过自己的研究发现:AI确实能发现好的描述子,指导我们发现新材料,但AI发现的新描述子到底有什么物理意义,很多情况下并不清楚。如果能够进一步挖掘简单描述子背后的物理意义,就能得到新知识。这样的话,AI不仅帮助发现新材料,还可以教我们新知识,这可能是更重要的意义。

 

跨领域融合与数据共享

周华:材料科研界和工业界的合作目前还比较松散,这种紧密合作目前的最大挑战和难度是什么?材料科学家在推动这一进程中能做些什么?

 

汪洪:我们研究材料基因组的最终目标就是要应用,因此我们和很多的企业建立了联系,进行了很多沟通。但是往往涉及到具体案例的时候,还是会出现问题。企业共有的担心的是数据的保密性,因为有些数据是他们的生命线。在这个问题没有解决之前,作为外单位的人与他们合作是有门槛和困难的。

 

刘淼:这是业界的共同问题,并不仅仅限于材料领域或者AI领域。大家在回答问题“我们如何和产业结合,从而解决生产中实际问题”的时候,确实有代沟和分歧。基础科研和应用研发在过去是脱节的,应用研发解决的是企业材料具体应用的问题。但我们国家整体的方向,正在步入从基础科研逐渐向应用转化的过程,意味着我们的基础科研实力逐渐增强的时候,大家会慢慢延伸到应用领域。

 

所以我不太担心这个问题,只是时间早晚的问题。具体怎么样和企业合作,我的看法是:把材料研发过程中的一些好的工具、好的方式不断地巩固扎实,让工具变成业界和学界有效沟通的助手;另外一个好的方式是数据,企业以前可能不知道DFT怎么计算,当我们有了这样的工具可以把DFT门槛降低,就能够将企业的材料研发方式和企业应用进行贴近。所以,这是一个开放的问题,也是正在解决的问题。

 

刘宜晋:在这个问题上,我认为学术界的研究人员可以有所作为。比如我们做的工作可以努力朝着Open Source、Open Data方向努力,这能够从我们这一端把这个事情往前推,经过我们的努力来争取工业界的正向回应。

 

周华:在学术界或科研界内部,如何能有效的实现AI+材料研究的数据共享?

 

汪洪:料界有一个共识,急需要有一个交换机制。如果数据是由国家资助生产的,它的归属自然是国家,但若通过自身资源生产出来的数据,肯定也需要一定回报的,所以交换机制非常重要。

 

客观上交换机制经历了很多讨论,但现在为止并没有一个特别清晰的结论。但在区块链的发展之下,它在商业领域应用了很多,在未来几年内可能会产生与此相关新的交换机制。如果将来所有材料开发都是数据驱动的话,那么数据就是一个基本的财富,数据的商业化和产业化会发展起来,这个过程中必然会产生比较实用的,广泛接受的交换或者购买机制,更容易推广数据的共享。目前即使以国家项目来收数据,也存在很多困难,未来可能会有所改变,但今天还是大家一个共同的心愿。

 

周华:人工智能或机器学习能否对材料合成方法和路径做一定的预测或规划?

 

刘淼:比如伯克利的Ceder团队试图用机器学习读文献,他们的数据库里已经有300万个文献,将300万个材料合成方法范例之后和计算数据做吻合,机器学习可以提取出一些材料的合成方式,那么其他的新材料就可以用这个模型去预测,我认为这是业界最领先的方式。一切皆有可能,大家只要善于思考,才有可能产生这样具有开创性的方案。另外我们可以用高通量合成、高通量表征这样的方式积累数据,当数据量到达一定程度,我们也能得到相应的知识。

 

周华:器学习能否对亚稳状态的材料合成有所帮助?

 

刘淼:这需要具体问题具体分析,总体就是如果有足够多的数据,数据质量足够高,多少会给出一些洞察。大家不要被已有的方式局限思路,我们其实在做一个信息化的方式,信息化是一种技术革命,带给我们很多可以做的方向,并不仅限于我们展示给大家的这些,有开创性的思维可能会更重要。

 

周华:用数据驱动来进行研究可能解释性比较差,甚至要改写材料科学的基础理论,我们该如何推进材料科学理论的进步?

 

尹万健:我们的物理定律是人类几百年来慢慢总结和发现的规律,这些规律是不是能够代表全部?这是一个根本性问题。用我们做计算的语言来说,人类现有的知识结构(domain knowledge)是否有可能只是处于整个知识结构(knowledge landscape)的一个局域波谷处(local minimum),因此而出现“一叶障目,不见泰山“。就像下围棋一样,算法可以不按照人类千年来总结出来“定势”来走,最后还是把你给打败了,说明所谓的“定势”本身就不是最优的。现在机器学习有一个方向叫做“可解释的机器学习”,我们不仅要知道这个材料比其他材料好,还要知道为什么,它背后的规律在哪儿。所以有没有更好的方法让我们应用到材料科学上,更好理解背后的物理规律,这方面现在可能刚刚起步,这需要不同科学领域的人相互交流。

胡嘉冕:举一个机器学习预测有机分子性能的例子。研究人员通过机器学习定量分析了分子中每一个原子对最后结果的贡献度。他们发现,机器筛选出来的具有最大贡献度的原子正巧是该分子的催化活性中心。有时候,如果数据量太大,可以通过机器学习先筛选出统计意义上最重要的数据,然后我们再对该部分的数据进行重点分析,这样更为高效,或对新科学现象的发现起到促进作用。


刘宜晋:机器学习可以帮助我们捕捉到大量数据里面的蛛丝马迹,从而了解一些原来没有预想到的化学反应。这些信息可以反过来帮助我们理解整个流程,从而可以提供一些信息让我们进一步改进材料设计。

 


AI人才培养的期许

周华:针对材料物质科学的年轻学生和刚加入这个领域的新生力量的,他(她)们需要有怎样的准备,训练和积累来迎接材料探索开发新时代的到来?

 

汪洪:现在的同学们随着计算机一起成长,对于未来要进入材料科学的同学来说,计算机技术是非常重要的一环,今后的学生,除了要打牢物理、数学、材料的基础,学习计算机、学习编程对于未来会有极大的帮助。所谓培养下一代的材料学家,就是要培养他们从思想上要认识到数据驱动是必由之路,能够掌握数据驱动这些基本工具。

刘宜晋:我们做研究必须得从自己的专业出发,一开始不要追求很复杂先进的算法,从小问题逐步开始,一切皆有可能,但是要明确自己的未来发展方向。


尹万健:我经常和我的学生说,千万不要追求大而全,也许我们做的工作,方式不是最完美,算法不是最好,但是一定要想我们是要解决什么科学问题,你把自己定位成什么很重要。如果定位成做材料的,首先要想清楚到底要解决材料里的什么问题、设计什么材料、如何改进材料性能,作为年轻科研工作者提出合适的问题非常关键,然后再想怎么样利用好机器学习这个工具。


刘淼:我建议比较年轻的同学或者从业者尽早规划自己的职业,只要找到自己的热爱,剩下的问题迎刃而解了。

 

(全文结束)

分享