比來,機械進修在化學范疇的運用有很年夜停頓,特殊是化學搜刮成績,從藥物挑選、電池設計到OLEDs設計,催化劑的發明。 汗青上化學家應用薛定諤方程做數值近似來處理化學檢索成績,如應用密度泛函實際(DFT),但是近似值的盤算本錢限制了搜刮的范圍。
為了可以或許擴展搜刮才能,雷鋒網懂得到已有幾個研討小組應用DFT生成的練習數據,創立ML模子來猜測化學性質,例如Matthias Rupp等用機械進修模子來猜測各類無機份子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT勢能面的一種新的神經收集表征。在這些任務的基本之上,谷歌研討院在QM9基準數據集(配有DFT盤算的電子,熱力學和振動性質的份子聚集)上運用了各類機械進修辦法。
谷歌研討院宣布了兩篇論文,引見了他們在這一范疇的研討,研討任務由Google Brain團隊,Google Accelerated Science團隊,DeepMind和巴塞爾年夜學協作完成。 第一篇論文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》查詢拜訪了回歸份子和份子表征的選擇對疾速機械進修模子的影響,模子用于構建無機份子的十三個基態電子性質,每一個回歸/表征/性質組合的機能經由過程進修曲線評價,該曲線描寫近似誤差,以此作為練習集年夜小的函數。論文在QM9基準數據集上測試了多種機械進修辦法,并集中改良最有愿望的深層神經收集模子。
第二篇論文《Neural Message Passing for Quantum Chemistry》描寫了一種稱為新聞傳遞神經收集(MPNN)的模子族,將其籠統地界說為包括許多對圖形對稱性具有不變性的神經收集模子。研討團隊在MPNN模子族中開辟了新變體,機能顯著優于QM9基準測試的一切基準測試辦法,別的某些目的的機能改良了近四倍。
從機械進修的角度來看,份子數據之所以風趣,緣由之一是一個份子的天然表征以原子作為界限的結點和鍵。可以或許應用數據中固有對稱性的模子更輕易泛化,這很輕易懂得,卷積神經收集在圖象辨認上之所以勝利,一部門緣由是模子可以或許記住圖象數據中的一些不變性常識,好比把一種圖片中的狗挪到圖片右邊照樣一張狗的照片)。 圖形對稱性這一固有特點是機械進修處置圖象數據異常幻想的性質,在這范疇也有很多風趣的研討,例如Yujia Li等研討了卻構化圖片的特點進修技能,David Duvenaud等運用圖象神經收集進修份子指紋信息,Steven Kearnes等提出一種機械進修模子用于無向圖的進修。雖然這一范疇已有所停頓,谷歌研討院愿望找到化學(和其他)運用模子的最好版本,并找出文獻中提到的分歧模子之間的接洽。
谷歌研討院提出的MPNN模子進步了QM9數據集義務(猜測一切13種化學性質)的最好機能,在這個特定的數據集上,他們的模子可以精確地猜測13種性質中的11個,如許的猜測機能曾經足夠精確,能對化學家將來的運用有贊助。別的,此模子比應用DFT模仿要快30萬倍。然則在MPNN模子走向現實運用之前還有許多任務要做。現實上,MPNN模子必需運用于比QM9數據更多樣化的份子聚集(例如數量更年夜,變更更年夜的重原子聚集)。固然,即便有了更真實的數據集,模子的泛化機能照樣很差。戰勝以上兩個挑釁須要處理機械進修研討的焦點成績,例如泛化。
猜測份子性質是一個異常主要的成績,它既是先輩的機械進修技巧的運用場景,也為機械進修帶來了異常風趣的基本研討課題。最初,份子性質的猜測有助于造福人類的新藥物和資料的設計。谷歌迷信家們以為流傳研討結果,贊助其他研討者進修機械進修運用都是及其主要的。