深度學習如何解決生物除錯問題?

2021-09-23 09:35:10 字數 3493 閱讀 9915

【編者按】深度學習在近幾年實現了巨大的突破,而這一方法也被應用到越來越多的領域,用於解決過去在這些領域難以解決的問題。可以預見,在未來的科研中

「深度學習+學科應用

」將得到更廣闊的應用,

生物學現在面臨著除錯的困難。生化系統(細胞)很複雜,深入研究它是十分有意義的。觀察你所了解的化合物是很有難度的,想要看到未知的化學變化就更難了。除錯問題的挑戰,通俗地說就是已知的未知問題和未知的未知問題,正在艱難前行。假如能夠收集大量的多維的、密集的生物資料,我們想知道深度學習能否幫助解決生物除錯問題。

過去的兩年中,我們已經設計了180多個酵母菌和病毒細胞來工業化生產相關化合物,例如,其中乙個酵母菌是第乙個能產生對乙醯氨基酚的細胞,我們最近也開始觀察人類疾病細胞。無論是對修飾後的微生物細胞還是人類疾病細胞,鑑定其與正常細胞的區別,是極有意義的,在這裡,我們一般將正常細胞(也就是原株和健康細胞)稱作是對照細胞,把另一種細胞稱作變數(通過基因處理或者人類疾病修飾)。

現代技術:科學家從現有的數百萬的化合物中挑選出乙個或幾個,檢查每乙個化合物的變異細胞是否區別於對照細胞。他們通過分析儀器(比如lc-ms)來比較資料**找到區別所在。標準的工作流程也有會極少的誤差,因為儀器校正也會有誤差。lc-ms儀器的有限精確度和不同化合物訊號之間的碰撞都使得這項工作變得複雜。

lc-ms分析聯合深度學習:我們輸入原始lc-ms資料(沒有經過個人推測分子的校正),通過深度學習模型來驗證變數樣本中哪個分子是不一樣的。

舉個例子,我們最近構建的能產生對乙醯氨基酚的酵母菌模型,敲掉幾個基因後**新的基因插入,這是很新穎的通路搭建。我們用葡萄糖介質培育變異株,同時培育原株酵母菌作為對照組。把這些菌種放在柱子中,會有200多個分子通過柱子。通過柱子出來的第五個分子的峰如下圖所示。(下圖左側是變異組,右側是對照組)

同時,系統識別出達到峰值時的化學物質分子式是c8h9no2。這個分子式很明確是對乙醯氨基酚。它也識別出了下面幾個結構式(最右邊的是對乙醯氨基酚),我們設計的這個通路分析識別出了這些備選結構中最有可能的是對乙醯氨基酚。

這種分析的本質是公正的,非靶向性的,這讓我們有信心解決除錯設計細胞問題。它能夠突出變異細胞組和對照組之間的主要差別,並且準確**相應的化合物。其他的主要識別峰可以觀察到副反應變化,這些變化是不能通過靶向分析檢測到的,靶向分析就是只分析特定的產物。我們去年就是一直在做這種靶向分析,但是現在我們可以識別好多我們一直在丟失的資料:所有的這些附加峰都是在細胞中加入幾個基因後的副反應所產生的,當接下來修飾細胞化學結構的時候這些差異都是應該考慮在內的。

這種能分析細胞中每個變化的非靶向分析是解決生物除錯問題的有力工具,深度學習也是解決該問題的關鍵點。

|通過深度學習的非靶向代謝組學

生物化學的除錯通路包括以下幾步:

準備樣品(變異組和對照組)

液相色譜質譜聯用(lc-ms)

每次lc-ms跟蹤要收集20億的資料點,需要跑2000多次,所以我們要通過大量的工程細胞株儲存4萬 億的資料點。

深度學習

識別變異組和對照組之間的差別。

sat計算

搜尋化學式來定位相對應變異中的差別的化學式。

酶的生物化學的網路模型

**並且排列與細胞工程相關的生物化學中的變化相關的分子和生物學通路。

我們來集中看一下深度學習模組。如果我們能從lc-ms中得到幾個重要引數(如碎片離子、保留時間和峰強度),我們就能繪製乙個類似下圖(左側)的3d圖,或者熱點圖(右側)。每種影象都能生成高解析度的pdf影象。縮放熱點圖找到高強度的峰(紅色)有助於觀察資料的密度。

總體的視野能觀察到全部資料,所以我們只看有大約50個資料點的小視窗,也就是全部資料的0.0000025%。看下面這個區域性3d圖窗,試著判斷一下它是否是「峰」。

你可能會正確地叫出每個峰的名稱。當我們起初分析這些**的時候,我們通過人為的視覺評估把這些峰分類為「完全是峰」、「不完全是峰」和「可能是峰」三類。

儘管人類可以很容易通過肉眼來分辨lc-ms的峰,但是開發一種穩健的計算機方法來分類峰還是有困難的。我們使用深度學習來使空間減小到幾十張影象那麼大,這些影象可以概括數千個lc-ms示蹤的結果。我們可以通過深度學習卓有成效地減小lc-ms資料的變數和複雜性,從而能通過示蹤歸納出常見的特徵。

我們的第一次重複使用了簡單的網路,並且取得了小小的成功,但是如果使用更深層的、多層的網路可能會更好地學習到lc-ms示蹤的細微差別。正由於這一點,我們成功地在一次示蹤中鑑別出好多峰,同時不包括許多人類一般會忽略的像峰似的特點。下圖中,左側是一組通過網路學習得到的峰(很容易看到主峰),右側是識別出的雜訊峰的特徵。

證明了我們能識別個別峰之後,我們又致力於歸納出這種方法來做大規模的不同分析。這種方法能讓科學家提供乙個實驗的對照組,並且能在任何情況下都能檢測分子。

從樣本到遺傳變異

深度學習能夠準確識別差異,通過建立深度學習能把我們的分析拓展到相比細胞系的基因變化上。整個柱子匯集了深度學習分析的成分和其他成分。乙個專門的生化計算軟體sat能夠解析化學式。能夠理解酶機制、底物特性和細胞鏈結的網路分析師可以推出分子結構。生物資訊學模組完成了解釋示蹤結果中基因變化的最後一步。

展望:深度學習解決生物除錯問題

合成生物學:通過準確地知道人為修飾或其他修飾的各種影響,生物製品的微生物工程的進展急速加快。這些細胞在可控的環境下進行培養,大多數的新陳代謝都是可以完全調整的,所以簡單的深度學習模組有望促進生物學的發展。

人類診斷:在疾病細胞和正常細胞中,人類細胞是有許多細微變化的。我們正在嘗試更複雜的深度學習網路能夠解決疾病細胞的非靶向診斷問題。這一點很值得期待。

via 20n.com

如何解決生物軟體報錯問題

處理軟體錯誤分為兩步 第一,診斷原因 第二,尋找解決方案。軟體為何會出錯?在命令列模式下執行生物軟體,主要考慮三個因素。軟體,輸入檔案,選項引數。那麼可能出錯的地方也就在此。部分情況下也可能是硬體問題,比如資源不足。1 command not found 這樣的錯誤,原因就是軟體沒有安裝,或者是軟體...

mysql如何解決深度分頁問題

我們一般做深度分頁的時候,sql語句往往如下 select from tb test order by id desc limit 10000,20 limit 10000 20的意思掃瞄滿足條件的10020行,扔掉前面的10000行,返回最後的20行。如果是limit 1000000 100,需要...

深度學習 Dropout如何解決過擬合

在機器學習的模型中,如果模型的引數太多,而訓練樣本又太少,訓練出來的模型很容易產生過擬合的現象 類似於結構力學中的超靜定問題,舉這個栗子是因為作者的專業是工程力學。當然了不保證栗子的準確性。在訓練神經網路的時候經常會遇到過擬合的問題,過擬合具體表現在 模型在訓練資料上損失函式較小,準確率較高 但是在...