深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用及啟示
天然蛋白質(zhì)通過調(diào)節(jié)一維氨基酸序列信息,能夠精準地制備具有特殊的三維空間結(jié)構(gòu)的蛋白質(zhì)分子,實現(xiàn)特定的生理功能. 而蛋白質(zhì)結(jié)構(gòu)預(yù)測希望代替大自然通過各種方法從一維序列信息推斷其三維空間結(jié)構(gòu). 蛋白質(zhì)結(jié)構(gòu)預(yù)測問題提出至今已困擾我們五十多年[
自然條件下,蛋白質(zhì)總能在生物學(xué)相關(guān)時間尺度內(nèi)迅速而準確地折疊到有限的幾種(大多數(shù)情形僅一種)三維空間結(jié)構(gòu)[
通常認為蛋白質(zhì)折疊的驅(qū)動力包括以下幾種[
Anfinsen熱力學(xué)假設(shè)[
因而產(chǎn)生了著名的Levinthal佯謬[
理解了快速折疊的原理不代表解決了蛋白質(zhì)預(yù)測問題.
在傳統(tǒng)的蛋白質(zhì)折疊預(yù)測中,人們通常經(jīng)過構(gòu)造或選擇力場,從某非天然態(tài)出發(fā),用各種動力學(xué)計算或模擬方法(例如分子動力學(xué)模擬)演化其構(gòu)象,直至能量達到全局最小[
此困境一度讓蛋白質(zhì)折疊預(yù)測領(lǐng)域的人們絕望. 因此,人們不再依賴基于純粹物理機制的方法,而是采用結(jié)合數(shù)據(jù)驅(qū)動的方式[
本文主要給非生命科學(xué)領(lǐng)域讀者介紹深度學(xué)習(xí)方法在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的應(yīng)用. 將選講幾個主要進展,特別將重點介紹AlphaFold[
1 蛋白質(zhì)結(jié)構(gòu)預(yù)測的基礎(chǔ)知識
1.1 位置特異性打分矩陣PSSM
位置特異性打分矩陣(position-specific scoring matrix, PSSM)或位置權(quán)重矩陣(position weight matrix, PWM)[
Fig. 1 Illustration of (a) position-specific scoring matrix (PSSM) and (b) multiple sequence alignment (MSA). (a) In this illustrative example, PSSM is computed using the formula given in the top right corner based on a DNA database consisting of ten DNA sequences. (b) Sequence alignment (SA) is trying to match the fragment pairs from the two given sequences as much as possible. In the alignment, inserting gaps "-" is allowed. Multiple sequence alignment (MSA) is SA on multiple sequences.
1.2 多重序列比對MSA
目前大多蛋白質(zhì)結(jié)構(gòu)預(yù)測的深度學(xué)習(xí)算法的輸入中都有多重序列比對信息(multiple sequence alignment, MSA)[
序列比對(sequence alignment)主要任務(wù)是針對查詢序列(query sequence)從數(shù)據(jù)庫中,用基因信息學(xué)的方法找到進化樹上盡可能同源的序列,然后根據(jù)變異的氨基酸的相似程度,按照特定規(guī)則來給該序列與查詢序列的相似度打分.
某個序列的變異包括對序列中特定片段的插入、刪除和替換. 相對于查詢序列,當庫里的蛋白質(zhì)序列變異很少時,則兩者相似度高.
當變異多時,還需根據(jù)進化同源的特點分類對變異片段進行進一步分析. 變異的氨基酸片段可分為保守片段(功能及化學(xué)特性相同)、半保守片段(功能及化學(xué)特性相近)和非保守片段(化學(xué)特性相差甚遠). 顯然,若保守片段越多,表明與查詢序列越接近.
比對的目標是通過恰當?shù)夭迦肟掌?gap),使得插入空片段后的2個序列盡量相似(如
用上述比對方法對若干個給定的序列與查詢序列進行比對就稱為多重序列比對(multiple sequence alignment, MSA). 通??捎密浖﨏lustalW, MAFFT, ClustalOmega以及MUSCLE等算法程序?qū)Χ鄠€序列進行MSA比對[
而在蛋白質(zhì)預(yù)測中,通常會針對輸入的蛋白質(zhì)序列,從蛋白質(zhì)數(shù)據(jù)庫中找到與給定序列相近的若干個序列,然后再將這些MSA作為神經(jīng)網(wǎng)絡(luò)的輸入. 此信息相比于PSSM包含了更為豐富的信息. 可從MSA中看出目標序列大致從哪些序列變異而來. 在深度學(xué)習(xí)中,MSA數(shù)據(jù)維度為(Nseq, Nres, 21),其中Nseq為MSA包含序列的數(shù)目,Nres為目標序列的長度,21用于分辨20種氨基酸和gap“-”的熱點表征(有時可能為22或23).
1.3 接觸圖與距離圖
如
Fig. 2 Illustration of contact map and distogram. (a) A typical structure of a given HP protein. (b) The contact of the (c) structure where the black square indicates the matrix element corresponding to two contact residues. (c) The distogram of the (a) structure where the greyness indicates the distance between two residues.
同一序列中不同殘基間的接觸與否或距離是非常重要的信息,它基本蘊含了蛋白質(zhì)骨架的三維結(jié)構(gòu)所有的信息. 而且這個信息相比于純粹的結(jié)構(gòu)三維坐標信息有2個優(yōu)勢:(1) 具有旋轉(zhuǎn)平移不變性,而三維坐標會隨著蛋白質(zhì)的旋轉(zhuǎn)或平移而改變;(2) 表達更簡潔及更易標準化. 因為存在關(guān)聯(lián)變異(correlated mutation)現(xiàn)象,有些接觸的兩氨基酸會同時變異以保證變異后仍接觸,故接觸圖或距離圖信息就顯得相當重要[
基于上述原因,在最近的深度學(xué)習(xí)預(yù)測蛋白質(zhì)結(jié)構(gòu)的實踐中[
1.4 蛋白質(zhì)數(shù)據(jù)庫PDB
目前最著名的蛋白質(zhì)數(shù)據(jù)庫為PDB[
1.5 CASP競賽
Critical Assessment of Protein Structure Prediction (CASP)[
1.6 模版建模得分TM Score
之前,人們通常用距離均方差root mean squared deviation (RMSD)衡量2個分子構(gòu)象的接近程度. 但現(xiàn)在模版建模得分template modelling score被認為是更準確的衡量方式[
其中
式中n為蛋白質(zhì)的殘基數(shù),M為旋轉(zhuǎn)平移矩陣. 上式表達的含義是將預(yù)測得到的結(jié)構(gòu)與各種旋轉(zhuǎn)平移操作后的真實結(jié)構(gòu)進行比較,取最相近(極大)的那個作為最后的分值.
顯然TM score在0~1之間,分數(shù)越高表明越準確. 通常認為當TM>0.5時,預(yù)測與真實之間的折疊基本一致[
而AlphaFold2(AF2)近2/3的預(yù)測結(jié)果達到中低分辨率的實驗精度[
由于多域蛋白質(zhì)各功能域之間可以相對獨立地移動旋轉(zhuǎn),在評估多域蛋白質(zhì)結(jié)構(gòu)相似性上,局域距離差異性測試(local distance difference test)是一個比TM分數(shù)更佳的評分方式. lDDT不同于TM,不依賴于骨架α碳原子的重疊,能夠不受功能域間位移的影響,更加有效地評估結(jié)構(gòu)之間的局域相似性[
1.7 深度學(xué)習(xí)原理與常用神經(jīng)網(wǎng)絡(luò)模型
本小節(jié)僅羅列結(jié)構(gòu)預(yù)測涉及到的深度學(xué)習(xí)技術(shù)及原理, 具體請參考相關(guān)文獻[
神經(jīng)網(wǎng)絡(luò)(neural network)可抽象成一個函數(shù),它關(guān)聯(lián)了2組信息數(shù)據(jù)x與y(比如蛋白質(zhì)的序列x及其結(jié)構(gòu)y),分別稱為網(wǎng)絡(luò)輸入與輸出;w為網(wǎng)絡(luò)的參數(shù). 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標是為了找到恰當?shù)?em data-v-838f3892="" class="italic" style="padding: 0px 0.14em 0px 0px; margin: 0px;">w使得網(wǎng)絡(luò)能夠根據(jù)x準確地預(yù)測y.
普適近似原理(universal approximation theorem)[
神經(jīng)網(wǎng)絡(luò)設(shè)計要點:考察待預(yù)測的量y與哪些量有關(guān)聯(lián),即找出哪些信息可足夠推導(dǎo)出y,然后將這些信息與y之間架接合適的神經(jīng)網(wǎng)絡(luò)便可. 信息間的關(guān)聯(lián)如果能用現(xiàn)有知識進行關(guān)聯(lián)就用現(xiàn)有知識將其關(guān)聯(lián);未知關(guān)聯(lián)用神經(jīng)網(wǎng)絡(luò)代替.
神經(jīng)網(wǎng)絡(luò)選擇需要考慮輸入輸出信息數(shù)據(jù)特點,目前結(jié)構(gòu)預(yù)測中常用的網(wǎng)絡(luò)結(jié)構(gòu)主要有下面幾種.
殘差網(wǎng)絡(luò)(resnet)[
基于自注意力機制的transformer[
2 傳統(tǒng)蛋白質(zhì)結(jié)構(gòu)預(yù)測
傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法[
2.1 基于模板的方法TBM
TBM方法[
Fig. 3 Illustration of basic strategies of template-based method (TBM) and template-free method (FM).
3 深度學(xué)習(xí)方法
3.1 殘基接觸對的預(yù)測
人們發(fā)現(xiàn)在蛋白質(zhì)變異過程中經(jīng)常出現(xiàn)關(guān)聯(lián)變異(correlated mutation)的現(xiàn)象:一條蛋白質(zhì)鏈內(nèi)若發(fā)生變異,總是2個氨基酸成對地變異;因為演化壓力會迫使蛋白質(zhì)維持一致構(gòu)型,原本接觸的氨基酸對在變異過程中繼續(xù)保持接觸,可以避免其形狀發(fā)生劇烈變化. 因此,這就使得殘基接觸對(inter-residue contact map)的信息極為重要[
早期有許多傳統(tǒng)方法致力于預(yù)測殘基接觸對. 處理該問題的早期算法,傾向于以一次一對的形式、孤立地預(yù)測每個接觸對是否可能. 由于忽視了蛋白質(zhì)包含的全局信息:一個殘基對是否接觸受到序列中其他殘基的影響,早期算法陷入了困境,預(yù)測效果糟糕. 而之后研究者提出了充分利用全局信息的預(yù)測方法,例如基于Markov隨機場模型MRF的direct coupling method (DCA)[
深度神經(jīng)網(wǎng)絡(luò)在預(yù)測殘基接觸對問題上,也表現(xiàn)出了異常優(yōu)異的性能,有時甚至還直接被用于預(yù)測鍵角等信息. 這些預(yù)測特征均可作為約束,輔助指導(dǎo)無模板方法.
比如,Raptor X-Contact深度學(xué)習(xí)模型[
而AlphaFold1[
3.2 AlphaFold
2020年的CASP14的比賽中,AlphaFold2 (AF2)[
AlphaFold2深度學(xué)習(xí)模型的結(jié)構(gòu)簡圖如
Fig. 4 Sketch of the AlphaFold2 model. Detailed description is referred to Ref.[
而另一輸入通道中,主要輸入與MSA相對應(yīng)的序列的結(jié)構(gòu)殘基對距離信息以及扭轉(zhuǎn)角的信息. 在具體輸入時,AF2將距離對長度劃分成64個離散塊(64 bins),并將其轉(zhuǎn)化為概率的形式,故對應(yīng)數(shù)組形狀為(s,r,r,64),取值為0~1. 注意配對表征中,只包含了MSA除輸入序列之外的某個序列自己結(jié)構(gòu)信息,不同序列之間并沒有進行信息的關(guān)聯(lián).
然后再將MSA表征與配對表征輸入一個稱為Evoformer的模塊,此模塊主要將MSA的信息(同源性差異)與結(jié)構(gòu)信息整合起來,最后得到輸入序列的MSA表征與輸入序列的配對表征. 此時,輸入序列的配對表征同時將演化信息與其他模板結(jié)構(gòu)信息有機地融合在了一起. Evoformer主要利用了自注意力機制來實現(xiàn)上述信息整合.
而下一個結(jié)構(gòu)模塊structure module主要的功能是將Evoformer預(yù)測的配對表征展開成三維空間結(jié)構(gòu),同時亦承擔(dān)一定的預(yù)測調(diào)整功能. 此模塊的結(jié)構(gòu)大致如
Fig. 5 Illustration of how the pairing information is transformed into the 3D structure using neural networks in AlphaFold2[
初始時,假設(shè)所有氨基酸都在原點,然后將此初始骨架與配對表征輸入結(jié)構(gòu)模塊,由于配對表征存有距離對及取向信息,故可通過一個稱為不變點注意力神經(jīng)網(wǎng)絡(luò)模塊將其初步還原成展開的骨架結(jié)構(gòu),緊接著再加入側(cè)鏈原子從而得到全原子的三維結(jié)構(gòu).
如
因為PDB中只有大約1×105多個的序列有對應(yīng)的三維結(jié)構(gòu)數(shù)據(jù). 而在big fantastic database (BFD)蛋白質(zhì)序列數(shù)據(jù)有多達2,204,359,010個序列,雖然這些序列并不一定有對應(yīng)的三維結(jié)構(gòu)信息(無標簽),但self-distillation dataset的訓(xùn)練技巧可以將這些無答案的題目作為作業(yè)進行訓(xùn)練,自己提高預(yù)測準確度,AlphaFold2用此擴大訓(xùn)練集并進一步提高了預(yù)測準確度.
后來有諸多研究團隊對AlphaFold2進行了拓展與提升. 例如:Baker團隊[
3.3 最簡單的蛋白質(zhì)模型的預(yù)測
真實蛋白質(zhì)結(jié)構(gòu)預(yù)測無論從訓(xùn)練數(shù)據(jù)準備還是模型構(gòu)建及訓(xùn)練都極其復(fù)雜. 因此,人們希望找一個簡單的蛋白質(zhì)模型,以便能快速地試驗他們的想法. 就如手寫數(shù)字識別(對應(yīng)數(shù)據(jù)集為MNIST)[
而HP蛋白質(zhì)模型就是這樣的模型[
我們基于此HP模型,提出了一個強關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)[
Fig. 6 Architecture of the strongly-correlated neural network (SCN) where r indicates number of residues and c indicates number of features or channels.
該研究發(fā)現(xiàn)與傳統(tǒng)向量表征方法相比,強關(guān)聯(lián)網(wǎng)絡(luò)極大提升了預(yù)測準確性,提高了約20個百分點.
4 展望與啟示
最近十多年深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中取得了巨大了成就,它的杰出代表AlphaFold2[
而另一方面,高分子材料基因組計劃仍然在進行中. 因為普通高分子的組成不像蛋白質(zhì)序列那樣,有確定的組成單元以及較為單一明確的目標,因此難度更大. 但深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的成功經(jīng)驗仍然對高分子材料基因組計劃有一定的啟發(fā):
首先,它有一個標準化的結(jié)構(gòu)數(shù)據(jù)庫PDB. 高分子材料基因組計劃或許也需要構(gòu)建類似的數(shù)據(jù)庫,難點在于制定統(tǒng)一的數(shù)據(jù)標準. 即如何準確、完整、簡潔地表征高分子鏈,加工條件及性能.
其次,蛋白質(zhì)結(jié)構(gòu)預(yù)測有一個權(quán)威的CASP競賽,CASP極大地推進了結(jié)構(gòu)預(yù)測算法的演進. 在材料基因組計劃中可參照CASP,建立相應(yīng)的標準化競賽.
再次,AlphaFold2充分利用了當前深度學(xué)習(xí)領(lǐng)域的各種先進算法,并不拘泥于某種特定算法. 這啟發(fā)我們解決問題時需要以問題為導(dǎo)向,而非以方法為導(dǎo)向.
最后,AlphaFold2中將Distogram信息用神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化成分子結(jié)構(gòu)坐標的方法可推廣至其他結(jié)構(gòu)預(yù)測的問題中,當然也可用于高分子的結(jié)構(gòu)預(yù)測.
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據(jù)?還有哪些機構(gòu)認可黨報?
- 《農(nóng)業(yè)經(jīng)濟》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!