您的位置：網(wǎng)站首頁(yè) > 優(yōu)秀論文 > 其他論文 > 正文

高分子材料基因組——高分子研發(fā)的新方法

作者：都仕張宋奇王立權(quán) 林嘉平杜磊來(lái)源：《高分子學(xué)報(bào)》日期：2022-06-15人氣：3670

新材料是高新科技和高端制造業(yè)發(fā)展的基石，而工業(yè)技術(shù)的不斷發(fā)展對(duì)材料性能提出了越來(lái)越高的要求. 但是，新材料的研發(fā)往往滯后，無(wú)法及時(shí)滿足應(yīng)用要求. 為了加快材料研發(fā)，結(jié)合現(xiàn)有的實(shí)踐經(jīng)驗(yàn)，2011年，研究者提出了新的材料研發(fā)模式——材料基因組. 我國(guó)科技部于2015年啟動(dòng)了“材料基因工程關(guān)鍵技術(shù)與支撐平臺(tái)”，重點(diǎn)扶持材料基因組的研究^[1^].

截至目前，材料科學(xué)研究先后經(jīng)歷了經(jīng)驗(yàn)驅(qū)動(dòng)、理論驅(qū)動(dòng)、計(jì)算驅(qū)動(dòng)和大數(shù)據(jù)驅(qū)動(dòng)等4種范式，如圖1所示^[2]. 第一范式(經(jīng)驗(yàn)科學(xué)) 是實(shí)驗(yàn)試錯(cuò)法的核心，它基于研究者在過(guò)去實(shí)驗(yàn)中所積累的經(jīng)驗(yàn)開(kāi)展研究工作. 第二范式(理論科學(xué))則通過(guò)整理歸納過(guò)去經(jīng)驗(yàn)來(lái)發(fā)現(xiàn)科學(xué)定律與理論，以此來(lái)解釋新問(wèn)題，發(fā)現(xiàn)新材料，是提高實(shí)驗(yàn)試錯(cuò)法效率的理論基礎(chǔ). 第三范式(計(jì)算科學(xué))則利用計(jì)算機(jī)模擬原子或分子的微觀狀態(tài)，結(jié)合熱力學(xué)和動(dòng)力學(xué)理論獲取宏觀性能. 這種計(jì)算方法常用于研究實(shí)驗(yàn)上難以直觀表征的領(lǐng)域，如觀測(cè)原子、分子在量子尺度和介觀尺度上的運(yùn)動(dòng). 第四范式(數(shù)據(jù)驅(qū)動(dòng)科學(xué))則是由算法對(duì)大量數(shù)據(jù)進(jìn)行智能分析并尋找數(shù)據(jù)間內(nèi)在聯(lián)系的研究方式. 與第二、第三范式不同，第四范式的任務(wù)是從已有實(shí)驗(yàn)數(shù)據(jù)出發(fā)，對(duì)未知的數(shù)據(jù)進(jìn)行推斷和預(yù)測(cè). 這4種范式各具特點(diǎn)又緊密聯(lián)系. 在它們共同作用下，各種新材料不斷涌現(xiàn)，有力地支撐著科學(xué)技術(shù)的發(fā)展. 目前，以經(jīng)驗(yàn)或理論為指導(dǎo)的實(shí)驗(yàn)試錯(cuò)法依舊是開(kāi)發(fā)新材料的主要方式，它往往需要不斷地嘗試和反復(fù)實(shí)驗(yàn)來(lái)探索較為廣闊的化學(xué)結(jié)構(gòu)空間，從而導(dǎo)致漫長(zhǎng)的材料研發(fā)周期. 而以第四范式為核心，輔以前3種范式的材料基因組將理論計(jì)算、數(shù)據(jù)庫(kù)技術(shù)、人工智能和實(shí)驗(yàn)有機(jī)結(jié)合，在付諸實(shí)驗(yàn)前通過(guò)計(jì)算機(jī)“虛擬合成材料并表征材料性能”，從而達(dá)到提高新材料的研發(fā)速度，降低研發(fā)成本的目的.

Fig. 1 The four paradigms of science: empirical, theoretical, computational, and data-driven.

與實(shí)驗(yàn)試錯(cuò)法不同，材料基因組的研發(fā)模式通過(guò)“數(shù)據(jù)技術(shù)-理性設(shè)計(jì)-實(shí)驗(yàn)驗(yàn)證”有機(jī)結(jié)合，顯著提高新材料研發(fā)效率. 其中，材料的理性設(shè)計(jì)是研發(fā)新材料的關(guān)鍵，也是研究者著重關(guān)注的領(lǐng)域. 相較于基于研究者經(jīng)驗(yàn)和直覺(jué)的傳統(tǒng)實(shí)驗(yàn)試錯(cuò)法，基于材料基因組思想的理性設(shè)計(jì)通過(guò)結(jié)合各種性能預(yù)測(cè)方法和仿真模擬，能更快速地探索更廣闊的材料結(jié)構(gòu)空間并以定量的方式比較不同材料的性能，從而無(wú)偏見(jiàn)地篩選出未曾被發(fā)現(xiàn)或被人忽視的結(jié)構(gòu). 基于材料基因組思想的理性設(shè)計(jì)和實(shí)驗(yàn)驗(yàn)證由3部分組成(如圖2)：(1)“基因”的定義：以一定的規(guī)則，將可能影響材料性能的因素定義為材料的“基因”，如組成高分子的化學(xué)基團(tuán)和元素等. 通過(guò)“基因”編輯(即替換現(xiàn)有高分子的片段)或“基因”組合獲得一系列“虛擬材料”. (2)性能預(yù)測(cè)與高通量篩選：創(chuàng)建基于實(shí)驗(yàn)或模擬數(shù)據(jù)的性能預(yù)測(cè)模型，對(duì)“基因”編輯或組合后的“虛擬材料”進(jìn)行性能預(yù)測(cè)，并以特定的性能標(biāo)準(zhǔn)進(jìn)行高通量篩選. (3)實(shí)驗(yàn)驗(yàn)證：合成所篩選出的“虛擬材料”，并通過(guò)性能表征驗(yàn)證篩選結(jié)果的可靠性.

Fig. 2 Procedures developed for the design and screening.

“基因”的定義與所研究的材料的特點(diǎn)緊密相連，是整個(gè)材料基因組的基礎(chǔ)，“基因”的選擇與后續(xù)合成的便宜性密切相關(guān).性能預(yù)測(cè)與高通量篩選則是整個(gè)理性設(shè)計(jì)過(guò)程中的核心和關(guān)鍵. 對(duì)“虛擬材料”的高通量性能預(yù)測(cè)(表征)目前大致分為4種方法：(1)通過(guò)數(shù)據(jù)挖掘?qū)ふ夷艽硇阅艿奶卣髁?，或者通過(guò)機(jī)器學(xué)習(xí)構(gòu)建預(yù)測(cè)模型. (2)發(fā)展多尺度的模擬方法，從分子結(jié)構(gòu)出發(fā)預(yù)測(cè)材料性能. (3)基于新興計(jì)算機(jī)技術(shù)，如GPU(圖形處理器)和NPU(嵌入式神經(jīng)網(wǎng)絡(luò)處理器)提升運(yùn)算能力，獲得高通量模擬計(jì)算方法. (4)發(fā)展高通量實(shí)驗(yàn)技術(shù)，研發(fā)高通量實(shí)驗(yàn)設(shè)備，實(shí)現(xiàn)對(duì)材料的高通量合成和表征.

雖然目前已有很多成熟方法能夠模擬特定尺度上材料的結(jié)構(gòu)和性能，但由于材料在不同尺度上的關(guān)聯(lián)并不明確，構(gòu)建多尺度模擬方法仍然是一個(gè)巨大挑戰(zhàn). 高通量實(shí)驗(yàn)涵蓋高通量制備技術(shù)和高通量表征技術(shù)，是對(duì)已有實(shí)驗(yàn)技術(shù)和表征手段加以改進(jìn)和利用，實(shí)現(xiàn)一次性批量樣品制備和一次性批量樣品表征. 它不僅可以突破傳統(tǒng)試錯(cuò)法研究框架，實(shí)現(xiàn)材料高效制備，而且可以短時(shí)間內(nèi)獲取大量實(shí)驗(yàn)樣品并表征性能，為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)提供數(shù)據(jù)支撐. 自1970年Hanak采用多成分拼接共濺射方法制備二元和三元超導(dǎo)材料后，高通量制備技術(shù)快速發(fā)展，但主要集中在金屬領(lǐng)域^[3^]. 高通量制備需要配備高通量制備技術(shù)來(lái)快速分析大量樣品，但高通量材料表征技術(shù)卻發(fā)展相對(duì)困難. 本質(zhì)上，高通量實(shí)驗(yàn)的進(jìn)步根源在于開(kāi)發(fā)出更先進(jìn)實(shí)驗(yàn)技術(shù)和表征手段. 與高通量實(shí)驗(yàn)類似，高通量模擬的進(jìn)步根源在于開(kāi)發(fā)出更高算力的硬件和更高計(jì)算效率的軟件. 4種方法中，基于數(shù)據(jù)挖掘?qū)ふ掖砹康姆椒ɑ蚧跈C(jī)器學(xué)習(xí)創(chuàng)建預(yù)測(cè)模型的方法是當(dāng)前實(shí)現(xiàn)性能預(yù)測(cè)和高通量篩選最為可行的方法.

材料基因組已經(jīng)成功應(yīng)用在高性能合金材料^[4~7^]、無(wú)機(jī)非金屬材料^[8~10^]、有機(jī)小分子材料^[11^,12^]等領(lǐng)域. 相較于金屬、無(wú)機(jī)非金屬和有機(jī)小分子材料，高分子材料具有更大、更復(fù)雜的材料參數(shù)空間，如高分子鏈構(gòu)造、構(gòu)型、構(gòu)象和聚集、加工方式及加工條件等等. 這些因素都將對(duì)高分子材料的性能產(chǎn)生巨大影響，因此建立高分子材料的構(gòu)效關(guān)系，提取決定其性能的“基因”將是更為困難的挑戰(zhàn)，這一切制約了材料基因組在高分子材料領(lǐng)域的應(yīng)用和發(fā)展.

本文將介紹性能預(yù)測(cè)方法之一——“通過(guò)數(shù)據(jù)挖掘?qū)ふ夷艽硇阅艿奶卣髁炕驒C(jī)器學(xué)習(xí)構(gòu)建預(yù)測(cè)模型”在突破高分子復(fù)雜性對(duì)材料基因組約束，實(shí)現(xiàn)理性設(shè)計(jì)高分子材料上的進(jìn)展. 本文分3部分，前兩部分分別介紹利用代理量方法和機(jī)器學(xué)習(xí)模型篩選高分子材料的進(jìn)展，最后探討高分子材料基因組的主要發(fā)展方向和所面臨的主要挑戰(zhàn).

1 利用代理量方法篩選高分子材料

從理論計(jì)算和模擬出發(fā)，直接構(gòu)建材料結(jié)構(gòu)和宏觀性能之間的構(gòu)效關(guān)系仍然是一個(gè)巨大的挑戰(zhàn). 基于此困境，提取能代表所需性能/性質(zhì)的、可計(jì)算的微觀或宏觀特征量作為性能代理量，將無(wú)法通過(guò)理論計(jì)算獲得準(zhǔn)確值的宏觀性能轉(zhuǎn)化為可計(jì)算的代理量，并通過(guò)代理量的比較來(lái)篩選獲得高性能高分子材料不失為一種合理的策略.

例如：隨著工業(yè)不斷發(fā)展，對(duì)高能量密度電容器的需求越來(lái)越旺盛，對(duì)電介質(zhì)材料的性能要求也越來(lái)越高. 相較于陶瓷材料，高分子材料成本更低，柔韌性更好，已成為廣泛使用的商用電介質(zhì)材料. 然而，高分子材料的介電常數(shù)較小，仍有改進(jìn)的空間. Ramprasad等用密度泛函理論(DFT)容易計(jì)算的高分子帶隙替代難以計(jì)算的擊穿電壓和介電損耗，并以密度泛函微擾理論(DFPT)和等效介質(zhì)理論計(jì)算獲得的理論介電常數(shù)替換宏觀介電常數(shù)，篩選高分子電介質(zhì)材料^[13^]. 他們提出了5步策略用于篩選介電材料結(jié)構(gòu)：(1)構(gòu)建組合化學(xué)空間：將高分子介電材料中常見(jiàn)的7種化學(xué)結(jié)構(gòu)(NH、CO、C₆H₄、C₄H₂S、CS、O、CH₂)作為“基因”，并以其中4個(gè)片段構(gòu)建線性高分子鏈的重復(fù)單元. 通過(guò)改變每個(gè)片段所代表的“基因”并淘汰不合理的結(jié)構(gòu)，最終獲得包含267種候選結(jié)構(gòu). (2)篩選具有潛力的重復(fù)單元：利用DFT、DFPT和等效介質(zhì)理論計(jì)算所有候選結(jié)構(gòu)的能帶隙和總介電常數(shù). 以能帶隙大于3 eV和總介電常數(shù)大于4 eV作為篩選條件，對(duì)所有候選結(jié)構(gòu)進(jìn)行篩選，獲得了符合條件的“基因”組合. (3)結(jié)構(gòu)/形態(tài)預(yù)測(cè)：通過(guò)USPEX (universal structure predictor evolutionary xtallography) 方法和熔融-淬火分子動(dòng)力學(xué)模擬，預(yù)測(cè)了符合篩選條件的“基因”組合在低能量狀態(tài)下的三維結(jié)構(gòu). (4)性能計(jì)算：再次利用DFT、DFPT和等效介質(zhì)理論計(jì)算所有三維結(jié)構(gòu)的能帶隙、總介電常數(shù)、紅外和X射線光譜. (5)合成和表征符合篩選條件的“基因”組合，并從高分子合成的便宜性角度反向指導(dǎo)篩選步驟. 憑借這5步策略，Ramprasad等最終篩選出3種有潛力的組合，分別為―NH―CO―NH―C₆H₄―、―CO―NH―CO―C₆H₄―和―NH―CS―NH―C₆H₄―. 然而，由于這3種組合在溶解性和薄膜加工性能上存在缺陷，直接將它們作為介電材料使用并不現(xiàn)實(shí)^[14^,15^]，因此，Ramprasad等合成了主鏈含有對(duì)應(yīng)結(jié)構(gòu)的聚硫脲^[16^]、聚脲、聚氨酯^[17^]和聚酰亞胺^[18^]. 通過(guò)實(shí)驗(yàn)合成和表征，他們發(fā)現(xiàn)其中2種優(yōu)選結(jié)構(gòu)的能量密度分別為9.3和15.77 J/cm³，是雙軸向聚丙烯的2~3倍. 實(shí)驗(yàn)結(jié)果證實(shí)，通過(guò)計(jì)算代理量方法篩選獲得具備應(yīng)用潛力的新型儲(chǔ)能高分子是可行的.

此外，Ramprasad等利用相同策略^[19^]：將改性聚乙烯重復(fù)單元看作由3個(gè)可變單元和1個(gè)CH₂組成的結(jié)構(gòu)，在7種主鏈摻雜嵌段“基因”(CH₂, SiF₂, SiCl₂, GeF₂, GeCl₂, SnF₂, SnCl₂)中任選3種，嵌入到可變單元中，獲得175個(gè)改性聚乙烯結(jié)構(gòu)；通過(guò)DFT計(jì)算這些結(jié)構(gòu)的能帶隙和介電常數(shù)，最終篩選出了含SnF₂或GeF₂的、高介電性能的有機(jī)金屬聚乙烯材料. 進(jìn)一步的研究揭示，含錫高分子在高介電領(lǐng)域中具備應(yīng)用潛力^[20^].

Zhu等開(kāi)展了含硅芳炔樹脂(PSA)方面的設(shè)計(jì)工作^[21^,22^]. PSA具有優(yōu)異的耐熱性能和固化性能，可作為航空航天用復(fù)合材料基體^[23~25^]. 隨著航空航天工業(yè)的發(fā)展，航空航天工業(yè)一方面要求樹脂具有越來(lái)越高的力學(xué)、耐熱等使用性能^[26^]，另一方面又希望降低樹脂的固化溫度和后處理溫度，以便于樹脂的加工和復(fù)合材料的制備. 然而，材料不同性能之間往往存在復(fù)雜的關(guān)系. 例如：提高樹脂的耐熱性能往往也會(huì)提高加工溫度和黏度，縮小加工窗口. 然而，實(shí)驗(yàn)試錯(cuò)法往往難以平衡這幾方面相互矛盾的性能，全面提升樹脂性能困難重重，付出的時(shí)間和費(fèi)用成本都很大. Zhu等利用材料基因組的概念調(diào)和了高熱穩(wěn)定性和低固化能之間的矛盾，通過(guò)設(shè)計(jì)和篩選，獲得了具有高熱分解溫度和低的固化放熱焓的PSA^[27^]. 從合成路線出發(fā)，選取二氯二甲基硅烷和含芳香環(huán)的二炔為“基因”，通過(guò)“基因”組合產(chǎn)生了大量候選PSA結(jié)構(gòu)，作為下一步篩選的化學(xué)結(jié)構(gòu)空間(如圖3). 采取兩步法，對(duì)化學(xué)結(jié)構(gòu)空間中的優(yōu)選PSA結(jié)構(gòu)進(jìn)行篩選：(1)用樹脂中最弱鍵的解離能(BDE)代理熱分解性能，以Si―CH₃中的硅碳鍵的BDE為閾值，通過(guò)DFT計(jì)算篩選出BDE大于閾值的候選PSA結(jié)構(gòu). (2)用分子連接指數(shù)法計(jì)算的零切黏度和以DFT計(jì)算得到的能帶隙代理加工性能，以零切黏度小于0.5 Pa·s (樹脂傳遞模塑工藝對(duì)黏度的要求)且能帶隙最小為標(biāo)準(zhǔn)，篩選出命名為PSNP的最佳結(jié)構(gòu). 實(shí)驗(yàn)證實(shí)，PSNP固化樹脂的5%熱分解溫度(T_d5)為655 ℃，固化放熱焓為241.9 J/g，基本達(dá)到設(shè)計(jì)目標(biāo).

Fig. 3 Screening approach for the rapid design of heat-resistant silicon-containing arylacetylene resins (Reprinted with permission from Ref.[27]; Copyright (2020) American Chemical Society).

除了固化放熱焓，PSA韌性欠佳的缺點(diǎn)也限制了PSA的進(jìn)一步應(yīng)用^[28^].提高PSA的韌性將是PSA工程應(yīng)用的關(guān)鍵. 共混作為一種常見(jiàn)的增韌手段，能簡(jiǎn)單快捷地提升脆性樹脂的韌性，但增韌樹脂的加入也勢(shì)必會(huì)影響其它性能，通常很難獲得令人滿意的效果. 目前，共混改性的PSA樹脂往往有著韌性提升不夠顯著或者耐熱性能明顯下降的問(wèn)題^[29^,30^].只有在提升韌性的同時(shí)盡可能減少對(duì)耐熱性能的負(fù)面影響，才能使增韌樹脂兼具高韌性和高耐熱性. 基于此需求，Gao等提出了利用高性能熱固性聚酰亞胺(PI)與PSA反應(yīng)共混，從而增韌PSA樹脂的設(shè)想，并根據(jù)材料基因組概念提出了設(shè)計(jì)篩選兼具高耐熱性和高韌性的PI的新策略^[31^]. 根據(jù)PI結(jié)構(gòu)的特點(diǎn)，Gao等將PI的原材料二酐和二胺作為2類“基因”，將多種二酐和二胺兩兩組合得到一系列候選PI結(jié)構(gòu). 此外，Gao等根據(jù)本體模量和剪切模量的比值(K/G)與韌性呈正相關(guān)的規(guī)律(如圖4(a))，提出將K/G作為韌性的代理量. 利用分子連接指數(shù)法計(jì)算了所有PI結(jié)構(gòu)的T_d50和K/G (如圖4(b)和圖4(c))，并將耐熱性和韌性歸一化處理后以1:1權(quán)重進(jìn)行綜合評(píng)價(jià)(如圖4(d))，從中篩選出了評(píng)分最高的結(jié)構(gòu). 如圖4(e)，以評(píng)分最高的結(jié)構(gòu)為主鏈，Gao等合成出了乙炔基封端的聚酰亞胺(ATPI)，并PSA反應(yīng)共混制備澆鑄體. 相較于純PSA樹脂，引入30 wt%含量的ATPI可使PSA樹脂的彎曲強(qiáng)度提升約164%，而T_d5僅下降了約8%，基本達(dá)到設(shè)計(jì)目標(biāo)，驗(yàn)證了Gao等篩選策略的可行性.

Fig. 4 (a) Plots of elongation at break (red circles) and flexural strength (blue squares) against K/G. Heat maps of (b) T_d50 values, (c) K/G values, and (d) weighted-average values for various gene combinations. The colors from purple to red correspond to the values from low to high. In (d), the shadow rectangle circled by a black dotted line represents the screened ATPI. (e) Molecular structure of the screened ATPI. (Reprinted with permission from Ref.?[31]; Copyright (2020) American Chemical Society).

除了設(shè)計(jì)用于增韌的PI樹脂，張宋奇等還利用材料基因組概念提出了用于篩選耐熱且易加工的熱固性PI樹脂材料的策略^[32^]：(1)從PoLyInfo數(shù)據(jù)庫(kù)中收集化學(xué)結(jié)構(gòu)，提取出柔性基元、剛性基元和反應(yīng)基元. (2)利用DFT計(jì)算獲得的化學(xué)鍵解離能和Mayer鍵級(jí)作為交聯(lián)樹脂耐熱性能的代理量，利用MD模擬和分子連接指數(shù)法計(jì)算獲得的松弛時(shí)間τ_rot和主鏈結(jié)構(gòu)(即不包含封端劑)的零切黏度η(T)作為交聯(lián)樹脂加工性能的代理量. 以BDE和τ_rot作為柔性基元的篩選指標(biāo)，以Mayer鍵級(jí)和η(T)作為剛性基元的篩選指標(biāo)，分別對(duì)柔性基元和剛性基元進(jìn)行篩選，獲得優(yōu)選的柔性基元和剛性基元. (3)將優(yōu)選的柔性基元嵌入到二酐結(jié)構(gòu)中獲得新二酐，將反應(yīng)基元和優(yōu)選的剛性基元嵌入到胺與酸酐結(jié)構(gòu)中獲得新二胺和新封端劑. (4)將新二酐、新二胺組合得到新聚酰亞胺主鏈結(jié)構(gòu). (5)利用分子連接指數(shù)法計(jì)算獲得的主鏈結(jié)構(gòu)T_d50作為交聯(lián)樹脂耐熱性能的代理量，利用分子連接指數(shù)法計(jì)算的主鏈結(jié)構(gòu)的η(T)和封端劑的η(T)分別作為篩選主鏈結(jié)構(gòu)和封端劑時(shí)交聯(lián)樹脂加工性能的代理量，利用DFT計(jì)算獲得的能帶隙作為交聯(lián)樹脂反應(yīng)活性的代理量. 以主鏈結(jié)構(gòu)的T_d50和主鏈結(jié)構(gòu)的η(T)作為篩選指標(biāo)對(duì)新主鏈結(jié)構(gòu)進(jìn)行篩選，獲得優(yōu)選PI主鏈結(jié)構(gòu). 以能帶隙和封端劑的η(T)作為篩選指標(biāo)對(duì)新封端劑進(jìn)行篩選，獲得優(yōu)選封端劑. 通過(guò)代理量法的篩選，張宋奇^[32^]等獲得了由萘環(huán)封端、主鏈含二甲基硅和炔基的優(yōu)選PI結(jié)構(gòu). 此外，優(yōu)選PI結(jié)構(gòu)的MD模擬結(jié)果表明，優(yōu)選PI中包含的剛性和柔性基元組合對(duì)樹脂整體的耐熱性能和加工性能都起到了增強(qiáng)作用.

表1所示為上述工作簡(jiǎn)單總結(jié). 由表可見(jiàn)，代理量法的關(guān)鍵是挖掘出能替代宏觀性能的且易于計(jì)算的合適代理量. 在使用代理量方法篩選高分子材料結(jié)構(gòu)的過(guò)程中，所選代理量和目標(biāo)性能之間關(guān)系的相關(guān)程度決定所計(jì)算的代理量在篩選過(guò)程中的參考價(jià)值. 相關(guān)性越高，代理量的計(jì)算越精確，代理量的參考價(jià)值越大，整個(gè)高分子材料基因組就越準(zhǔn)確和完備. 因此，用代理量設(shè)計(jì)和篩選高分子材料的核心是尋找目標(biāo)性能與各種微觀物理量或某些宏觀量之間的關(guān)系，從中選出最能代表目標(biāo)性能且便于計(jì)算的代理量. 隨著更多的宏觀性能-代理量配對(duì)組合被發(fā)現(xiàn)，代理量篩選將在高分子材料領(lǐng)域得到更廣泛的應(yīng)用.

Table 1 Summary of calculating the key features method enhanced material genome approach.

Example	Key points	Ref.
1	Use band gap and dielectric constant that are calculated by DFT to represent dielectric properties.	[13]
2	Find the potential of organo-Ge and organo-Sn based polymers which are neglected.	[19]
3	Use bond dissociation energy and energy bandgap which are calculated by DFT to represent thermal properties and curing properties.	[27]
4	Use T_d50 and K/G which are calculated by the molecular connectivity index to represent thermal properties and toughness.	[31]
5	Use T_d50, energy bandgap, and viscosity that are calculated by the molecular connectivity index and DFT to represent thermal properties, reaction activity, and processability.	[32]

2 利用機(jī)器學(xué)習(xí)模型篩選高分子材料

作為多門學(xué)科相互交叉結(jié)合的產(chǎn)物，高分子材料基因組不僅需要材料領(lǐng)域的科研人員，也需要信息學(xué)領(lǐng)域的研究人員參與. 作為信息學(xué)中的一個(gè)重要分支，機(jī)器學(xué)習(xí)試圖從歷史數(shù)據(jù)中挖掘潛在規(guī)律，并對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)、推斷或分類，是滿足材料基因組對(duì)預(yù)測(cè)性能和高通量篩選需求的另一途徑^[33^]. 利用機(jī)器學(xué)習(xí)中多樣的算法(如人工神經(jīng)網(wǎng)絡(luò)、決策樹、最近鄰算法等)對(duì)已知材料數(shù)據(jù)進(jìn)行訓(xùn)練，即可構(gòu)建出輸入量(如簡(jiǎn)化分子線性輸入規(guī)范(SMILES)、分子量和各種分子描述符等)與材料性能之間的定量構(gòu)效關(guān)系(QSPR)，即性能預(yù)測(cè)模型. 這些性能預(yù)測(cè)模型能夠有效提高材料基因組中材料設(shè)計(jì)和篩選步驟的效率. 近10年來(lái)，關(guān)于機(jī)器學(xué)習(xí)在材料領(lǐng)域中應(yīng)用的報(bào)道已超過(guò)2000篇^[34^]. 在材料領(lǐng)域中重要的分支——高分子材料領(lǐng)域中，已有不少研究者成功將機(jī)器學(xué)習(xí)應(yīng)用于預(yù)測(cè)高分子材料的宏觀性能^[35~40^]和微觀性質(zhì)^[41^,42^].

雖然研究者已利用代理量法發(fā)掘不少具有潛力的新型高分子材料，但為了更快地獲取高分子的帶隙和介電常數(shù)，Ramprasad等基于DFT計(jì)算的帶隙和介電常數(shù)，構(gòu)建了通過(guò)輸入高分子結(jié)構(gòu)預(yù)測(cè)帶隙和介電常數(shù)的機(jī)器學(xué)習(xí)模型^[43^]. 利用這個(gè)模型，避免了高代價(jià)的DFT計(jì)算，節(jié)省了時(shí)間，使更大介電高分子結(jié)構(gòu)空間的探索成為可能：隨著“基因”個(gè)數(shù)增加(從4增加到8，9)時(shí)，介電高分子結(jié)構(gòu)空間將呈指數(shù)形式增加(理論上存在的化學(xué)結(jié)構(gòu)從2401個(gè)增加到7⁸個(gè)，7⁹個(gè))，此時(shí)用DFT計(jì)算所有結(jié)構(gòu)的性能是不切實(shí)際的，但利用機(jī)器學(xué)習(xí)建立的預(yù)測(cè)模型仍能在短時(shí)間內(nèi)完成對(duì)結(jié)構(gòu)空間中任意結(jié)構(gòu)的性能預(yù)測(cè). 為了更快獲得最優(yōu)結(jié)構(gòu)，Ramprasad等還引入了用于搜索最優(yōu)解的遺傳算法. 遺傳算法是模擬生物在自然選擇和遺傳變異下實(shí)現(xiàn)不斷進(jìn)化的算法^[44^]. Ramprasad等將預(yù)測(cè)模型作為性能預(yù)測(cè)工具，將遺傳算法作為篩選工具，從多個(gè)隨機(jī)的結(jié)構(gòu)開(kāi)始，先預(yù)測(cè)性能并篩選出較為優(yōu)異的結(jié)構(gòu)，運(yùn)用遺傳算法“遺傳變異”出可能更優(yōu)秀的結(jié)構(gòu)，再對(duì)這些“遺傳變異”出的結(jié)構(gòu)進(jìn)行性能預(yù)測(cè)、篩選和“遺傳變異”的迭代(如圖5(a)). 通過(guò)多次的“遺傳變異”和篩選的迭代，Ramprasad等快速篩選出了含“基因”個(gè)數(shù)為8、9、10、11和12時(shí)各自的最佳“基因”組合(如圖5(b)). 雖然這些最佳“基因”組合還有待進(jìn)一步實(shí)驗(yàn)合成和表征，但根據(jù)Ramprasad等在之前工作的成功實(shí)例，這些新的“基因”組合仍有被關(guān)注和研究的價(jià)值.

Fig. 5 (a) The steps involved in the genetic algorithm (GA) approach leading to direct design of polymers. (b) The exponential increase in total polymer possibilities for increasing number of repeating blocks, and the simultaneous decrease in the percentage of points to be explored till success. Also shown are one optimal polymer each for each case for a target dielectric constant and bandgap of 5 and 5 eV, respectively. (Reprinted with permission from Ref.?[43]; Copyright (2016) Nature Publishing Group).

在設(shè)計(jì)固態(tài)高分子電解質(zhì)方面，Wang等提出了將粗?；疢D與機(jī)器學(xué)習(xí)結(jié)合的策略^[45^]. Wang等先將高分子的化學(xué)結(jié)構(gòu)(全原子模型)轉(zhuǎn)化為粗?；Ｐ?如圖6中①→②)，再通過(guò)粗?；疢D模擬計(jì)算當(dāng)前模擬體系中Li離子傳導(dǎo)率；接著，通過(guò)貝葉斯優(yōu)化找出Li離子傳導(dǎo)率更優(yōu)的粗?；Ｐ? 利用這種“計(jì)算傳導(dǎo)率-尋找更優(yōu)模型”的循環(huán)迭代，最終獲得性能最佳的粗粒化模擬體系及其對(duì)應(yīng)的粗?；瘏?shù)(如圖6中②→③). 相較于全原子MD模擬計(jì)算Li離子傳導(dǎo)率，此策略所用的粗粒化MD模擬，不僅縮短了計(jì)算的時(shí)間，降低了計(jì)算代價(jià)，還巧妙地用多個(gè)可連續(xù)變化的粗?；瘏?shù)組代表高分子的化學(xué)結(jié)構(gòu)，將離散的自變量(化學(xué)結(jié)構(gòu))轉(zhuǎn)化為連續(xù)的自變量(如陰離子半徑、離子間相互作用強(qiáng)度、離子與高分子間相互作用強(qiáng)度等)，為引入貝葉斯優(yōu)化尋找最佳結(jié)構(gòu)提供了基礎(chǔ).以粗?；疢D模擬作為計(jì)算工具，以貝葉斯優(yōu)化作為篩選工具，Wang等高效地探索了最佳Li離子電導(dǎo)率對(duì)應(yīng)的各項(xiàng)參數(shù). 雖然能將全原子模型轉(zhuǎn)化為粗粒化模型，但是目前技術(shù)仍難以利用已知的粗?；瘏?shù)反向推導(dǎo)出對(duì)應(yīng)的全原子模型(高分子的化學(xué)結(jié)構(gòu)). 因此，受限于當(dāng)前技術(shù)，Wang等的方法無(wú)法直接獲得高Li離子電導(dǎo)率的固態(tài)高分子電介質(zhì)材料結(jié)構(gòu)，但這種策略下獲得的最佳粗?；瘏?shù)仍然能間接為固態(tài)高分子電介質(zhì)材料的結(jié)構(gòu)設(shè)計(jì)和合成提供參考和借鑒.

Fig. 6 Illustration of the coarse-grained molecular dynamics―Bayesian optimization (CGMD-BO) framework. Materials design starts with the coarse-graining process to transform the conventional chemical species space to a continuous space composed of CG parameters (①→②). This space is then explored by BO-guided CGMD simulations in iterations to predict the relationships between the transport properties and the associated CG parameters (②→③). (Reprinted with permission from Ref.?[45]; Copyright (2020) American Chemical Society).

Oyaizu等則在設(shè)計(jì)固態(tài)高分子電解質(zhì)方面采取了更傳統(tǒng)的機(jī)器學(xué)習(xí)策略^[46^]. 他們先從250篇文獻(xiàn)中提取出導(dǎo)電鋰離子固體高分子電解質(zhì)數(shù)據(jù)，再利用高斯過(guò)程回歸尋找已知數(shù)據(jù)中關(guān)鍵因素(如化學(xué)結(jié)構(gòu)、組分比例和測(cè)試溫度)與離子電導(dǎo)率之間的潛在關(guān)系，從而獲得機(jī)器學(xué)習(xí)預(yù)測(cè)電導(dǎo)率的模型. 然而，由于高斯過(guò)程回歸的計(jì)算代價(jià)較大，如何將包含高分子各項(xiàng)信息的2000個(gè)分子描述符轉(zhuǎn)化為能正確反映高分子的特征信息且維度又盡可能小的輸入向量成為訓(xùn)練機(jī)器學(xué)習(xí)模型的關(guān)鍵. Oyaizu等先利用門控圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練了一個(gè)從化學(xué)結(jié)構(gòu)出發(fā)預(yù)測(cè)2000種分子描述符的分子識(shí)別模型，通過(guò)分子識(shí)別模型提取出能代表2000種分子描述符的32維向量，完成了將輸入向量從2000維度降維至32維度的降維操作. 將此32維向量作為接下來(lái)高斯過(guò)程回歸的輸入值，通過(guò)大量數(shù)據(jù)的訓(xùn)練，最終建立了預(yù)測(cè)電導(dǎo)率的機(jī)器學(xué)習(xí)模型(圖7). 以此模型為計(jì)算工具，對(duì)擬研究的所有高分子電介質(zhì)進(jìn)行電導(dǎo)率計(jì)算和篩選，Oyaizu等發(fā)現(xiàn)并證實(shí)：(1)由聚苯硫醚(PPS)衍生物和芳香族氧化劑組成的混合物能運(yùn)輸Li離子(>10^-4 S/cm). (2)二甲基取代的PPS(PMPS)是一種同時(shí)具備高電導(dǎo)率、易加工性能和高玻璃化轉(zhuǎn)變溫度(T_g>150 ℃)等優(yōu)異性能的高分子.傳統(tǒng)認(rèn)知表明，PPS是絕緣工程塑料，只有電荷轉(zhuǎn)移復(fù)合物電介質(zhì)的T_g應(yīng)該盡可能低，才能使材料在應(yīng)用條件下保持橡膠態(tài). 然而，Oyaizu等提出了反傳統(tǒng)認(rèn)知的結(jié)論卻得以證實(shí)，這表明在材料基因組中運(yùn)用機(jī)器學(xué)習(xí)技術(shù)能夠擺脫人類從經(jīng)驗(yàn)上獲得的偏見(jiàn)，更客觀理性地探索材料結(jié)構(gòu)空間，找出在研發(fā)過(guò)程中被忽視的新結(jié)構(gòu)、新材料.

Fig. 7 Scheme for predicting properties of the solid polymer electrolytes by AI. Oyaizu pretrained graph neural net to predict 2000 molecular descriptors with only 32-dimensional vectors. And then the relationship between the composite information (32-dimensional vectors) and its conductivity was trained by a Gaussian process model. (Reprinted with permission from Ref.?[46]; Copyright (2020) American Chemical Society).

環(huán)氧樹脂因其巨大的商業(yè)價(jià)值而備受關(guān)注^[47^,48^]，但由于其多組分的特性和廣泛的應(yīng)用場(chǎng)景，往往需要反復(fù)嘗試才有可能找到滿足應(yīng)用場(chǎng)景的最佳配方. 由此可見(jiàn)，材料基因組在環(huán)氧樹脂領(lǐng)域極具發(fā)揮空間和商業(yè)價(jià)值. Tao等利用MD模擬了30個(gè)組分相同但配比不同的環(huán)氧樹脂體系，以模擬計(jì)算獲得的性能數(shù)據(jù)作為原始數(shù)據(jù)，訓(xùn)練反向傳播神經(jīng)網(wǎng)絡(luò)，最終獲得了通過(guò)輸入組分比例預(yù)測(cè)環(huán)氧樹脂T_g、楊氏模量E、極限抗拉強(qiáng)度UTS和伸長(zhǎng)率δ的預(yù)測(cè)模型^[49^]. 運(yùn)用此模型，Tao等獲得了雙酚A縮水甘油醚(DGEBA)/二氨基二苯甲烷四縮水甘油胺(TGDDM)/雙氰胺(DICY)/4,4-二氨基二苯砜(DDS)/聚醚砜(PES)/聚醚酰亞胺(PEI)六組分的最佳比例，并發(fā)現(xiàn)了各組分對(duì)性能的影響規(guī)律：DDS比DICY更能提高E、T_g和δ；TGDDM能保證高E、T_g和UTS，但仍需要DGEBA提供韌性；PES能顯著增強(qiáng)韌性. 近期，Tao等用該策略，篩選出了同時(shí)具備優(yōu)異力學(xué)性能和高自愈合效率的環(huán)氧配方^[50^]，表明了這種策略的可拓展性和應(yīng)用潛力.

高分子膜是膜分離領(lǐng)域被廣泛研究和使用的材料^[51^]. 滲透性和選擇性是分離膜最重要的兩項(xiàng)性質(zhì)，但經(jīng)驗(yàn)表明兩者相互矛盾，呈現(xiàn)負(fù)相關(guān). 為了平衡滲透性和選擇性，獲得高滲透性和高選擇性的氣體分離高分子膜，Kumar等用分子指紋表示高分子化學(xué)組成和拓?fù)浣Y(jié)構(gòu)，利用搜集到的500~1000個(gè)不同氣體(N₂,O₂,H₂,He,CH₄,CO₂) 對(duì)不同高分子的滲透率數(shù)據(jù)，訓(xùn)練了高斯過(guò)程回歸模型，架構(gòu)起了高分子與其對(duì)不同氣體的滲透率之間的關(guān)系^[52^]. 通過(guò)機(jī)器學(xué)習(xí)模型對(duì)高分子結(jié)構(gòu)空間的探索(如圖8(a))，Kumar等成功發(fā)現(xiàn)并合成了2種分離性能優(yōu)異的新型PI材料(P4320902，P432095，如圖8(b)). 氣體分離實(shí)驗(yàn)表明，P4320902和P432095的CO₂/CH₄氣體分離性能突破了現(xiàn)有材料的上限.

Fig. 8 (a) Polymer candidates for advanced CO₂/CH₄ gas transport performance identified through ML and their experimental performance. The predicted locations for two potential high-performance polymers are marked with colored crosses?―?the measured experimental values are denoted with colored dots. (b) Molecular structures of two potential high-performance polymers. (Reprinted with permission from Ref.[52]; Copyright (2020) American Association for the Advancement of Science).

Li等為了獲得性能更優(yōu)異的高分子燃料電池用高分子質(zhì)子交換膜材料，從約2800篇關(guān)于磺化質(zhì)子交換膜的報(bào)道中挖掘數(shù)據(jù)，記錄或計(jì)算了描述磺化質(zhì)子交換膜的各項(xiàng)特征(如親水單體的比例、相對(duì)濕度、離子交換能力、測(cè)試溫度、各類分子描述符等) ^[53^]. 為了提高機(jī)器學(xué)習(xí)模型的泛化能力，用盡可能少的特征作為機(jī)器學(xué)習(xí)的輸入，Li等刪除特征中的冗余和噪聲，并利用遺傳算法改進(jìn)的隨機(jī)森林算法進(jìn)行特征優(yōu)化. 通過(guò)對(duì)模型的訓(xùn)練，他們建立了用于預(yù)測(cè)質(zhì)子電導(dǎo)率、T_d5、甲醇透過(guò)率和拉伸模量的性能預(yù)測(cè)模型和分類模型. 利用性能預(yù)測(cè)模型，他們探索了由166個(gè)親水單體和175個(gè)疏水單體組合形成的化學(xué)結(jié)構(gòu)空間，發(fā)現(xiàn)了2838個(gè)在80 ℃下整體性能超過(guò)Nafion 117的新型共聚物.

之后，Li等將研究焦點(diǎn)擴(kuò)展到高分子過(guò)濾膜性能的預(yù)測(cè)和分類^[54^]. 從約2700篇關(guān)于高分子膜的文獻(xiàn)中挖掘出了1895條用于機(jī)器學(xué)習(xí)的實(shí)驗(yàn)數(shù)據(jù). 利用類似的策略，他們建立了用于預(yù)測(cè)高分子膜透水性、選擇性和交換率的性能預(yù)測(cè)模型以及識(shí)別高分子膜分離能力的分類模型. 此外，他們發(fā)現(xiàn)將實(shí)驗(yàn)上的結(jié)構(gòu)信息(例如孔隙率、厚度、接觸角等等)作為特征輸入能進(jìn)一步提高性能預(yù)測(cè)模型的準(zhǔn)確性. Li等的工作為開(kāi)發(fā)新型高性能高分子膜提供了便利的工具.

Zubarev等提出了一種反向設(shè)計(jì)聚酯和聚碳酸酯的方法，即將高分子性能反向映射到高分子結(jié)構(gòu)上形成一對(duì)多的映射方式，直接通過(guò)所需性能要求找到所有符合要求的高分子及其合成條件^[55^]. 他們以單體和引發(fā)劑作為一種節(jié)點(diǎn)，以催化劑和助催化劑作為另一種節(jié)點(diǎn)(如圖9(a))，再以設(shè)計(jì)需求(單體轉(zhuǎn)化率或分散性)為鏈接兩種節(jié)點(diǎn)的“邊”(如圖9(b))，將實(shí)驗(yàn)合成條件和性能數(shù)據(jù)轉(zhuǎn)化為“實(shí)驗(yàn)知識(shí)譜圖”. 其中，單體和引發(fā)劑節(jié)點(diǎn)還包含初始單體濃度和初始單體/引發(fā)劑摩爾比數(shù)據(jù)(如圖9(c)). 根據(jù)歷史數(shù)據(jù)和經(jīng)驗(yàn)，Zubarev等獲得了35000種實(shí)驗(yàn)條件組合空間. 根據(jù)已知數(shù)據(jù)，將不滿足單體轉(zhuǎn)化率要求的實(shí)驗(yàn)條件組合的“邊”設(shè)定為0(即淘汰)，滿足單體轉(zhuǎn)化率要求的“邊”設(shè)定為1(即保留)，未知其單體轉(zhuǎn)化率的“邊”設(shè)定為0.5(即待定)，利用node2vec和隨機(jī)森林分類方法判斷未知其單體轉(zhuǎn)化率的實(shí)驗(yàn)條件組合是否應(yīng)該保留，最終獲得滿足設(shè)計(jì)需求的實(shí)驗(yàn)條件組合. 相較于正向設(shè)計(jì)，這種逆向設(shè)計(jì)雖然不能預(yù)測(cè)高分子性能，但能直接給出滿足設(shè)計(jì)需求且合成上可行的高分子，既減少了時(shí)間和計(jì)算成本，又規(guī)避了Ramprasad等遇到的最佳高分子合成困難的問(wèn)題.

Fig. 9 Transformation of the "experiment knowledge graph" (eKG) into a network that links prediction via representation learning. (a) Simplified resource description framework (RDF) graph where the nodes of the experimental parameters (objects) are collapsed forming bundles and the categorical value of the measured property is treated as a subject. The same procedure applies to MC (shown) and ? (not shown). (b) RDF triples are transformed into a bipartite graph, where nodes representing bundled experimental parameters (RDF objects) are directly connected to each other via a link; the value of the measured property (RDF subject) is assigned to the link as an attribute. (c) A RDF graph constructed from the relational database of the experimental parameters and outcomes (not shown). Continuous experimental parameters and measured properties are converted into categorical values via binning. Dashed outlines show the patterns of node collapse. (Reprinted with permission from Ref.[55]; Copyright (2020) American Chemical Society).

Zubarev等還探究了建立小數(shù)據(jù)預(yù)測(cè)模型的方法^[56^]：(1)將有限的原始數(shù)據(jù)反復(fù)分成訓(xùn)練集和測(cè)試集，獲得10組訓(xùn)練集/測(cè)試集組合. (2)對(duì)每個(gè)組訓(xùn)練集進(jìn)行50次有放回抽樣，每個(gè)放回抽樣集包含30個(gè)有效數(shù)據(jù). (3)每個(gè)放回抽樣集被用來(lái)訓(xùn)練10個(gè)包含聚類和回歸模型的監(jiān)督自組織映射模型(SUSI)，每個(gè)SUSI都由隨機(jī)的訓(xùn)練集數(shù)據(jù)初始化. (4)利用測(cè)試集對(duì)所有SUSI模型進(jìn)行評(píng)價(jià). (5)保留每一組訓(xùn)練集/測(cè)試集組合中最好的10個(gè)SUSI模型，將總共100個(gè)的SUSI模型作為一個(gè)大集合. (6)利用大集合預(yù)測(cè)新型高分子的T_g，并以所有模型預(yù)測(cè)值的平均值作為最終T_g的預(yù)測(cè)值. 通過(guò)這一策略Zubarev等只使用了23個(gè)PI實(shí)驗(yàn)數(shù)據(jù)就建立了能預(yù)測(cè)T_g的模型，并利用這一模型探索了由13個(gè)二胺和8個(gè)二酐(二酐和二胺皆出自23個(gè)PI結(jié)構(gòu))組成的PI結(jié)構(gòu)空間，發(fā)現(xiàn)并合成了3種新型PI. 3種PI的T_g預(yù)測(cè)值(分別是273、311和335 °C)與T_g實(shí)際值(分別是282、281和331 °C)吻合較好.

表2為上述機(jī)器學(xué)習(xí)工作的簡(jiǎn)單總結(jié). 由表可知，利用機(jī)器學(xué)習(xí)模型篩選高分子材料的方式主要分為2種：(1)與理論計(jì)算和模擬技術(shù)結(jié)合，對(duì)計(jì)算數(shù)據(jù)進(jìn)行學(xué)習(xí)，用已訓(xùn)練完成的機(jī)器學(xué)習(xí)模型代替理論計(jì)算和模擬，將預(yù)測(cè)新材料性能所耗費(fèi)的時(shí)間從幾小時(shí)甚至數(shù)天(計(jì)算模擬所需時(shí)間)縮短至幾秒甚至毫秒(運(yùn)行模型代碼所需時(shí)間)級(jí)別. (2)用可靠的實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型，從而獲得能直接預(yù)測(cè)材料宏觀性能的機(jī)器學(xué)習(xí)模型.

Table 2 Summary of machine learning enhanced material genome approach.

Example	Key points	Ref.
1	The train set is calculated by DFT. However, bandgap and dielectric constant are predicted by the machine learning predictive model instead of DFT.	[43]
2	Integrate coarse-grained molecular dynamics with machine learning.	[45]
3	The chemical design screened by AI is contrary to the common sense of rubbery polymer electrolytes.	[46]
4	The train set is calculated by fully atomistic molecular dynamics simulation. However, the performance of epoxy resin is predicted by machine learning models instead of simulation.	[49]
5	Two of the most promising polymer membranes predicted by this machine learning model exceeded the upper bound for CO₂/CH₄ separation performance.	[52]
6	Find 2838 novel copolymers that have better overall performance than Nafion 117 for fully hydrated membranes at 80 ℃ by machine learning models.	[53]
7	Provide regression models to facilitate the development of advanced filtration membranes for public use.	[54]
8	Use machine learning models to predict polymerization experiments that are likely to produce materials with targeted properties rather than predict the properties of polymers.	[55]
9	Train machine learning models by small data.	[56]

運(yùn)用機(jī)器學(xué)習(xí)模型篩選高分子材料具有預(yù)測(cè)準(zhǔn)確度高，預(yù)測(cè)過(guò)程方便快捷，方法泛用性強(qiáng)，無(wú)偏見(jiàn)等優(yōu)點(diǎn). 這些優(yōu)勢(shì)完美契合材料基因組對(duì)材料設(shè)計(jì)篩選過(guò)程中的需求. 想要獲得可靠且準(zhǔn)確的機(jī)器學(xué)習(xí)模型，必須依賴可靠、完備且龐大的數(shù)據(jù)，然而高分子的實(shí)驗(yàn)數(shù)據(jù)來(lái)源分散、測(cè)試參數(shù)各異、性能種類不完備，這導(dǎo)致研究者在所研究的高分子領(lǐng)域中有較大可能遇到可靠數(shù)據(jù)規(guī)模較小的不利情況. 由此可見(jiàn)，高分子數(shù)據(jù)質(zhì)量參差不齊已成為機(jī)器學(xué)習(xí)方法在高分子材料基因組中應(yīng)用的最大障礙. 目前，相關(guān)的研究往往需要研究者手動(dòng)收集文獻(xiàn)和公開(kāi)數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)數(shù)據(jù)，當(dāng)面對(duì)實(shí)驗(yàn)數(shù)據(jù)較為稀少的材料性能和材料類別時(shí)需要研究者運(yùn)用DFT、MD模擬等方法計(jì)算大量該材料的理論數(shù)據(jù)，將其作為進(jìn)一步機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù).

機(jī)器學(xué)習(xí)在高分子材料基因組中雖然已有個(gè)別應(yīng)用，但整體上仍然停留在構(gòu)建適用于高分子領(lǐng)域的機(jī)器學(xué)習(xí)階段. 例如：Olsen等在已有的SMILES基礎(chǔ)上開(kāi)發(fā)了專為描述高分子結(jié)構(gòu)的表達(dá)系統(tǒng)(BigSMILES)^[35^]，Ponzoni等為探索高分子領(lǐng)域如何選擇合適的特征作為模型的輸入，分別使用特征選擇法和特征學(xué)習(xí)法進(jìn)行特征的選擇并對(duì)預(yù)測(cè)斷裂拉伸強(qiáng)度模型進(jìn)行訓(xùn)練，最終發(fā)現(xiàn)兩種方法相結(jié)合的預(yù)測(cè)模型效果最佳^[38^]. 此外，還有探索小數(shù)據(jù)機(jī)器學(xué)習(xí)的可行方案^[56~58^]，追求更高準(zhǔn)確性的機(jī)器學(xué)習(xí)預(yù)測(cè)模型^[59~61^]之類的基礎(chǔ)性工作. 但是，大部分的研究并未繼續(xù)深入，沒(méi)有將通過(guò)機(jī)器學(xué)習(xí)預(yù)測(cè)模型篩選出的高分子結(jié)構(gòu)付諸實(shí)驗(yàn)合成和驗(yàn)證. 相信在解決了阻礙應(yīng)用的各種問(wèn)題后(如數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征選擇、機(jī)器學(xué)習(xí)算法選擇、合成可行性等)，機(jī)器學(xué)習(xí)必然會(huì)在高分子材料基因組中發(fā)揮重要的作用.

3 總結(jié)與展望

3.1 高分子材料基因組現(xiàn)狀和挑戰(zhàn)

在高分子領(lǐng)域，運(yùn)用材料基因組設(shè)計(jì)篩選新型高分子材料仍然是前沿領(lǐng)域，有待科研人員進(jìn)一步探索和完善. 隨著理論和技術(shù)的進(jìn)步，通過(guò)計(jì)算機(jī)提前預(yù)測(cè)高分子的各項(xiàng)性能已成為可能. 材料基因組合與高分子理論、計(jì)算模擬技術(shù)和基于數(shù)據(jù)驅(qū)動(dòng)的人工智能等相結(jié)合，高通量設(shè)計(jì)篩選新型高分子材料的材料研發(fā)方式已取得初步成效. 特別是在面對(duì)2種或2種以上相互制約彼此矛盾的性能時(shí)，相較于傳統(tǒng)實(shí)驗(yàn)試錯(cuò)法，基于材料基因組的高分子材料設(shè)計(jì)篩選在成本和時(shí)間上凸顯優(yōu)勢(shì).

高分子材料基因組仍然處于起步階段，有很多問(wèn)題亟待解決. 目前，在面對(duì)難以計(jì)算或預(yù)測(cè)的宏觀性能時(shí)，往往用易于計(jì)算的特征量替代高代價(jià)的宏觀性能計(jì)算，但這種策略在一定程度上降低了結(jié)果的準(zhǔn)確性. 此外，雖然無(wú)論是第一性原理密度泛函理論還是分子動(dòng)力學(xué)模擬，其計(jì)算代理量所消耗的時(shí)間都遠(yuǎn)小于實(shí)驗(yàn)合成、表征所需時(shí)間，但是當(dāng)面對(duì)海量高分子代理量計(jì)算需求時(shí)，時(shí)間成本仍是限制研究者進(jìn)一步探索更大化學(xué)結(jié)構(gòu)空間的主要原因.

一旦機(jī)器學(xué)習(xí)預(yù)測(cè)模型訓(xùn)練完成，利用預(yù)測(cè)模型進(jìn)行材料特征量或性能的預(yù)測(cè)是一條耗時(shí)短、結(jié)果準(zhǔn)確的途徑. 但這條途徑中最大問(wèn)題是如何為機(jī)器學(xué)習(xí)預(yù)測(cè)模型的訓(xùn)練提供來(lái)源可靠且數(shù)據(jù)量足夠大的高質(zhì)量數(shù)據(jù)集. 由于高分子材料的分子結(jié)構(gòu)、聚集態(tài)結(jié)構(gòu)、加工方式和測(cè)試條件的不同都將影響材料性能，而文獻(xiàn)中的數(shù)據(jù)質(zhì)量參差不齊，個(gè)別數(shù)據(jù)甚至存在空缺，因此用于機(jī)器學(xué)習(xí)的高分子材料性能數(shù)據(jù)庫(kù)往往難以得到格式統(tǒng)一且量大、可靠的性能數(shù)據(jù). 這種可靠數(shù)據(jù)的匱乏阻礙了機(jī)器學(xué)習(xí)模型準(zhǔn)確性和泛化能力的提升.

此外，由于高分子材料基因組所能探索的結(jié)構(gòu)空間遠(yuǎn)大于已有的實(shí)驗(yàn)合成經(jīng)驗(yàn)空間，容易篩選出難以合成的高分子結(jié)構(gòu). 因此，在理性設(shè)計(jì)過(guò)程中，需要進(jìn)一步考慮合成的便宜性，優(yōu)化篩選條件并與已有的實(shí)驗(yàn)合成經(jīng)驗(yàn)有機(jī)結(jié)合，或者創(chuàng)建基于機(jī)器學(xué)習(xí)的高分子合成路徑預(yù)測(cè)方法，在篩選出高分子結(jié)構(gòu)的同時(shí)預(yù)測(cè)合理的合成路徑.

3.2 高分子材料基因組對(duì)高分子領(lǐng)域的反哺

高分子材料基因組不僅提出了高效的高分子材料研發(fā)新模式，而且對(duì)傳統(tǒng)高分子科學(xué)的認(rèn)知和材料基因組的擴(kuò)展具備重要的意義.

在利用高分子材料基因組挖掘優(yōu)秀新型材料的過(guò)程中，對(duì)篩選結(jié)果進(jìn)行“基因分析”即可獲得“基因”(通常為基團(tuán)或原子)與宏觀性能之間的關(guān)系. 這些或正相關(guān)、或負(fù)相關(guān)的關(guān)系既能充實(shí)高分子領(lǐng)域第一范式，提高實(shí)驗(yàn)試錯(cuò)法的效率，又能加深對(duì)高分子化學(xué)結(jié)構(gòu)和宏觀性能關(guān)系的認(rèn)識(shí).

除了對(duì)篩選結(jié)構(gòu)“基因”分析外，機(jī)器學(xué)習(xí)本身也可能為我們帶來(lái)新的認(rèn)知. 在高分子材料基因組中，利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)高分子性能本質(zhì)上是一個(gè)以數(shù)學(xué)角度而非化學(xué)角度出發(fā)，以唯象的方式預(yù)測(cè)高分子性能的“黑匣子”. 這種“黑匣子”過(guò)程由于不受已有的高分子理論的束縛，最終可能篩選獲得違背已有認(rèn)知的“反?！备叻肿咏Y(jié)構(gòu). 這些被篩選出的高性能“反?！苯Y(jié)構(gòu)有可能成為高分子理論新的突破口. 另一方面，利用物理學(xué)等專業(yè)知識(shí)對(duì)機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))的“黑匣子”過(guò)程進(jìn)行解釋性研究，理清“黑匣子”內(nèi)部運(yùn)作的因果關(guān)系，有助于理解性能變化的規(guī)律^[62^].

高分子材料基因組的發(fā)展不僅對(duì)高分子領(lǐng)域有重要意義，對(duì)于材料基因組這一新的材料研發(fā)模式也具備重要意義. 高分子領(lǐng)域具有眾多金屬、無(wú)機(jī)非金屬和有機(jī)小分子領(lǐng)域沒(méi)有的特征，如高分子鏈結(jié)構(gòu)、鏈構(gòu)象、多分散性、高分子結(jié)晶特征、高分子微相結(jié)構(gòu)和亞穩(wěn)態(tài)結(jié)構(gòu)等，目前對(duì)高分子材料基因組的研究仍未達(dá)到能全面包含這些特性的階段，因此進(jìn)一步發(fā)展高分子材料基因組將有效拓展材料基因組的應(yīng)用范圍，是對(duì)現(xiàn)有材料基因組的有益補(bǔ)充和拓展.

3.3 高分子材料基因組的發(fā)展方向

根據(jù)當(dāng)前材料基因組在高分子材料方面的發(fā)展情況，我們展望了未來(lái)的發(fā)展重點(diǎn).

(1) 實(shí)現(xiàn)高通量實(shí)驗(yàn)：通過(guò)高通量實(shí)驗(yàn)一次性獲得批量樣品將是一條行之有效且極具潛力的篩選途徑. 不同于利用計(jì)算機(jī)“虛擬合成與表征材料”的特征代理量篩選法和機(jī)器學(xué)習(xí)法，利用高通量實(shí)驗(yàn)設(shè)備在短時(shí)間內(nèi)合成大批量的高分子，并利用高通量表征技術(shù)快速便捷地獲得所有高分子性能數(shù)據(jù)的高通量實(shí)驗(yàn)法不僅能從數(shù)量龐大的高分子結(jié)構(gòu)中篩選出符合性能要求的新型材料，而且能為機(jī)器學(xué)習(xí)提供大量可靠的實(shí)驗(yàn)數(shù)據(jù). 高通量制備技術(shù)已在金屬領(lǐng)域取得了系統(tǒng)性的發(fā)展，但在高分子領(lǐng)域還比較零散、不成體系. 目前，已報(bào)道的高通量高分子合成方法如自動(dòng)并行合成器、微波合成器和噴墨打印機(jī)等. Ehm等成功利用商業(yè)化的自動(dòng)并行合成器——平行壓力反應(yīng)器48(PPR48)實(shí)現(xiàn)烯烴聚合催化劑的高通量篩選^[63^]. Zhang等則成功利用自己設(shè)計(jì)的設(shè)備對(duì)甲基丙烯酸甲酯原子轉(zhuǎn)移自由基聚合法催化體系的參數(shù)進(jìn)行高通量篩選和優(yōu)化^[64^]. 此外，Ducker等則利用微波多肽合成器高通量改性硅表面性質(zhì)^[65^]. 相較于高通量制備技術(shù)，高通量的表征技術(shù)發(fā)展緩慢，如高通量成分與結(jié)構(gòu)表征技術(shù)、高通量熱力學(xué)表征技術(shù)、高通量力學(xué)表征技術(shù)、高通量光學(xué)表征技術(shù)等，但其作為高通量制備技術(shù)的配套技術(shù)，對(duì)于提高材料研發(fā)的整體效率意義重大.不同于高通量制備技術(shù)，高通量表征技術(shù)可以模糊材料的界限，應(yīng)用于金屬和無(wú)機(jī)非金屬材料的高通量表征技術(shù)可以較為容易的拓展到高分子領(lǐng)域，因此高分子研究者可大力借鑒金屬和無(wú)機(jī)非金屬材料的高通量表征技術(shù).

(2) 進(jìn)一步發(fā)展特征量代替宏觀性能的策略：一方面尋找更多能代理宏觀性能的特征量，從而將更多宏觀性能納入高分子材料基因組的適用范圍內(nèi)，如耐溶劑性、耐磨性、抗沖擊性、相容性等等；另一方面引入更快速、便捷的方法計(jì)算特征量，例如基團(tuán)貢獻(xiàn)法、分子連接指數(shù)法和機(jī)器學(xué)習(xí)等等.

(3) 進(jìn)一步發(fā)展包含性能更廣且預(yù)測(cè)更準(zhǔn)確的高分子材料宏觀性能機(jī)器學(xué)習(xí)預(yù)測(cè)模型：目前，機(jī)器學(xué)習(xí)預(yù)測(cè)模型往往只針對(duì)特定類型高分子的特定性能，而限制機(jī)器學(xué)習(xí)在高分子材料基因組中更廣泛應(yīng)用的是可靠數(shù)據(jù)的匱乏. 因此，通過(guò)建立完善規(guī)范的高分子材料性能數(shù)據(jù)庫(kù)擴(kuò)大有效數(shù)據(jù)量或發(fā)展利用小數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的策略，從而建立能預(yù)測(cè)更多性能且更準(zhǔn)確的性能預(yù)測(cè)模型將是機(jī)器學(xué)習(xí)在高分子材料基因組中未來(lái)發(fā)展的方向.

(4) 發(fā)展基于機(jī)器學(xué)習(xí)高分子逆向設(shè)計(jì)策略：與正向設(shè)計(jì)將材料結(jié)構(gòu)參數(shù)映射到性能上獲得性能預(yù)測(cè)模型不同，逆向設(shè)計(jì)是將材料的性能映射到材料結(jié)構(gòu)參數(shù)上獲得逆向模型. 在實(shí)際的材料設(shè)計(jì)和工程應(yīng)用環(huán)節(jié)，最重要的是滿足工程對(duì)材料性能的要求. 因此，相較于正向設(shè)計(jì)，逆向設(shè)計(jì)作為從性能出發(fā)獲得材料結(jié)構(gòu)的面向性能的設(shè)計(jì)更適合于工程領(lǐng)域.

關(guān)鍵字：優(yōu)秀論文

上一篇：深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的應(yīng)用及啟示
下一篇：聚乙烯吡咯烷酮雜化雙色光敏激光直寫光刻膠研究

欄目分類

熱門排行

推薦信息

期刊知識(shí)