(圖片來源:Chem)
正文
機器學習(Machine Learning, ML)即應用程序在無需人工參與的情況下,執行流程改進,并按需更新代碼、擴展功能。機器學習可應用在圖像識別、語音識別、交通預測、產品推薦、自動駕駛汽車、垃圾郵件和惡意軟件的過濾、虛擬的個人助理(如:Siri,小度)、股市交易、醫學診斷以及自動語言翻譯(Fig. 1)。下載化學加APP到你手機,收獲更多商業合作機會。
(圖片來源:Google)
機器學習在化學科學中也得到廣泛應用,從藥物發現、化合物性質預測再到合成路線的設計等(Fig. 2A,Cell, 2020, 180, 688; Chem. Soc. Rev., 1995, 24, 279; Nature, 2018, 555, 604)。然而,將化學分子轉化為計算機可讀的數據仍然是一個挑戰,這需要考慮數據集、輸入和模型之間的復雜關系。盡管已經開發了一些表示方法,但由于應用的多樣性,目前仍然存在一些挑戰(Chem. Soc. Rev., 2020, 49, 6154; Chem, 2020, 6, 1379; Nature, 2019, 571, 343; Science, 2018, 360, 186; Nat. Mach. Intell., 2020, 2, 573)。Frank Glorius提出一個理想的解決方案應該具備高適應性、普適性、預測性能以及可解釋性(Fig. 2B),Glorius教授呼吁開發一種跨越不同分子科學領域應用的通用方法,以提高預測準確性和解釋性。
Fig. 2. Different fields of application and molecular representations for molecular machine learning
(圖片來源:Chem)
Glorius團隊開發了一種新算法—EvoMPF,用于生成表示分子。這個方法旨在解決機器學習在研究化學問題時遇到的挑戰,特別是在特征化過程中過度擬合的情況。Glorius提出了一種靈活的分子查詢語言(SMARTS),該語言可以查詢該化合物的屬性(例如雜化、電荷和手性)以及鄰近原子數。經過迭代、評估訓練和調整優化,可以生成用于描述分子的分子指紋(MPFs)。進化算法利用隨機生成和突變來生成新的模式,通過訓練機器學習模型來評估每個MPF的性能。用CatBoost做為機器學習模型,在機器學習的每次迭代進化中MPF都能豐富相關的數據集,而整體上不發生對數據集的過度調整,從而產生高度可解釋且密集的分子表示,這種就是EvoMPF。Glorius和團隊成員通過這種方法生成的分子具有高度的解釋性,且不會過度擬合數據(Fig. 3)。
(圖片來源:Chem)
優化和產率預測:定量產率預測需要考慮分子的組合性質、目標產物的復雜性以及數據樣本過少的問題。他們指出用于定量預測還必須考慮過擬合的問題,必須通過統計探測方法評估模型的泛化能力以及影響。用于測試算法性能的Doyle-Dreher數據集,包含了大量的Buchwald-Hartwig交叉偶聯反應數據(Fig. 4A)。在這個數據集中,有多種芳基鹵化物、鈀催化劑和堿與多種異噁唑酮添加劑的組合。為了評估模型對新化合物的泛化能力,使用了樣本外(OOS)的數據集來進行測試(Fig. 4B)。基于進化算法生成和優化描述分子結構的分子指紋(MPFs)。他們使用SMARTS語言來定義查詢分子,然后EvoMPF隨機生成和優化這些模式,以描述數據集的關鍵特征。通過在每次迭代中評估預測性能,他們證明了進化算法能夠有效地完成該分子的產率預測。在進行了一系列實驗后,發現使用二進制特征在組合數據集上查詢只需少量數據點即可獲得出色的預測性能。這表明了所需特征數量減少,該方法可以快捷的找到合適的描述符(Fig. 4C)。該研究還發現使用二進制特征只需要256個模式就能夠獲得出色的預測性能,盡管使用32個模式就足以獲得類似的性能(Fig. 4D)。在研究中,Glorius還指出他們的方法在大多數測試中略微優于復雜的深度學習模型(Deep Learning)和人工設計的指紋。這突顯了無特征的重要性,以及該方法在產率預測時的有效性(Fig. 4E)。
(圖片來源:Chem)
應用范圍:該研究還了測試EvoMPF在各種反應數據集上的性能。由Richardson和Sach發表的一個數據集包括5,760個Suzuki-Miyaura交叉偶聯反應(Fig. 5A)。盡管已表明這個數據集是可預測的,但目前為止,還沒有方法證明可以將機器學到的規則轉移到之前未見過的結構上。由于EvoMPF可以輕松應用于小型的數據集,因此沒有進一步耗時優化,使進化和模型參數保持不變。在這些OOS數據集上依舊獲得了較高的預測準確度。有趣的是,在排除所有使用P(OTol)3和SPhos作為配體反應的OOS分割中,統計對照(即OHE)的表現甚至比EvoMPF好,這表明這些配體對產率沒有很大的影響。之后,還對手性磷酸催化劑催化生成不對稱N, S-縮醛數據集進行了對映選擇性的預測,EvoMPF的表現優于相應的統計對照,并且與更復雜的多特征指紋(Fig. 5B)以及差異反應指紋(DRFPs)相當。
Fig. 5. Performance of the MPFs on different quantitative reaction prediction tasks
隨著EvoMPF在小型數據集上表現出的準確性和穩定性,研究還測試了該算法在不同的分子預測任務上的普適性。該研究對藥理學終點的預測,特別是LD50的預測表現出色(Fig. 6A)。研究使用了多個來源的數據集其中包含了大量化合物數據,并進行了對比實驗以驗證EvoMPF相對于傳統方法的優越性(Fig. 6B)。結果表明,EvoMPF能夠有效地處理復雜的預測任務,展現出了極高的穩定性。接著將EvoMPF應用于QSAR/QSPR領域的四個基準數據集(Fig. 6E),這些數據集涵蓋了不同的任務和分子特性。通過測試(HIV病毒的復制能力、分子的量子力學性質),證明EvoMPF在各種任務中的穩健性和性能優勢,甚至在某些情況下超過了圖神經網絡(GNN)的性能,這表明EvoMPF在不同領域和任務中的廣泛適用性。
Fig. 6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks
可解釋和解釋性人工智能:在毒性預測的數據庫中,研究發現某些元素的PAPs查詢數量與其平均毒性、毒性方差以及含有這些元素數據點的數量之間存在著強烈的相關性,這突顯了EvoMPF的可解釋朝著識別相關化合物的方向發展。隨后,研究將EvoMPF應用于Buchwald-Hartwig數據集中,驗證其生成的特征是否能夠捕獲已知的反應趨勢。通過與人共設計的查詢相比較,他們發現EvoMPF生成的查詢不僅考慮到了人類設計的結構特征,還捕捉到了更加微妙的反應性趨勢,例如特定配體對反應產率的影響(Fig. 7B)。這證明了EvoMPF生成的特征對化學結構與反應性有更深層的理解。總的來說,通過EvoMPF生成的特征具有直接的可解釋性,并且能夠反映化學結構與反應性之間的復雜關系,這使得研究人員能夠直接從數據中洞察整個反應流程,而無需額外的模型分析。
Fig. 7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI
總結
聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn