閱讀筆記 TAPE NIPS2019

2021-10-12 05:56:18 字數 2909 閱讀 3096

3、相關工作

4、資料集

pfam資料集介紹

4.1 資料集

5、模型與實驗設定

蛋白質表示學習是機器學習研究的乙個日益熱門的領域。由於獲取監督蛋白質標籤的成本較高,但目前的文獻在資料集和標準化評價技術方面比較零散,因此半監督學習作為蛋白質表示學習中的一種重要正規化。為了促進這一領域的進展,作者引入了評估蛋白質嵌入的任務(tape),這是一組分布在蛋白質生物學不同領域的五個與生物學相關的半監督學習任務。我們將任務劃分為特定的訓練、驗證和測試三種任務,以確保每個任務都測試與生物學相關的泛化,並將其轉移到現實場景中。我們對半監督蛋白質表徵學習的一系列方法進行了基準測試,這些方法涵蓋了最近的工作以及典型序列學習技術。我們發現,自我監督的預訓練對於幾乎所有任務的模型都是有幫助的,在某些情況下甚至可以使效能加倍。儘管如此,在某些情況下,通過自監督預訓練學習的特徵仍然落後於由最先進的非神經技術提取的特徵。這種效能上的差距為創新的架構設計和改進的建模模式提供了巨大的機會,這些模式可以更好地捕捉生物序列中的訊號。作者根據三個自監督學習可以帶來提公升的蛋白質生物學領域(結構**,遠端同原物檢測,蛋白質工程)來選擇監督任務。

蛋白質的本質是有一系列共價鍵銜接起來的氨基酸分子鏈,如下圖所示,構件蛋白質的氨基酸有20種,通過特定的序列空間構型形成了複雜的蛋白質結構。理論上這種離散的序列被稱為蛋白質的一級結構(蛋白質的一級結構(primary structure)就是蛋白質多肽鏈中氨基酸殘基的排列順序(sequence)。但在細胞中,蛋白質是一種複雜的三維大分子結構,這種三維結構對於蛋白質生物特性的理解具有關鍵的作用。在更複雜的空間構型中,蛋白質的區域性幾何構型則被稱為二級結構,使得蛋白質的不同區段表現出不同的行為特徵。而整個蛋白質的全域性結構則被稱之為**結構,它決定蛋白質的整體行為。

作者用25個字元的標準字母表對氨基酸進行編碼,其中標準氨基酸20個字元,非標準氨基酸硒代半胱氨酸和吡咯賴氨酸2個字元,模糊氨基酸2個字元,氨基酸未知時1個字元。本文中,作者按照上述氨基酸的表示方式將乙個長為l的蛋白質表示為氨基酸序列(x1

,x2,

....

,xl)

(x_,x_,....,x_)

(x1​,x

2​,.

...,

xl​)

。除了序列形式外,蛋白質是乙個有三維結構的分子。蛋白質結構分為:

了解一級序列如何摺疊成**結構是生物化學的乙個基本目標。蛋白質通常由一些較大的蛋白質結構組成,這些序列在金瓜的過程中是保守的,因此具有明確的摺疊和功能。

同源蛋白質:氨基酸序列具有明顯的相似性,在不同生物體或同一機體內行使相同或相似功能的蛋白質。蛋白質之間的進化關係產生是因為生物體在進化過程中必須保持某些功能,例如複製dna。進化的過程中與這些功能相適應的蛋白質在生物內流傳了下來。儘管蛋白質的結構受到收到烟花壓力的制約,但是序列級的變化可能會很大,最終產具有相似結構但序列差別較大的蛋白質。

量化這些進化關係對於防止資料分割之間不希望的資訊洩漏非常重要。作者採用的是序列識別,它測量蛋白質比對子序列之間精確氨基酸匹配的百分比。 例如,以25%的序列同一性閾值進行過濾意味著在訓練和測試集中沒有兩個蛋白質具有超過25%的精確氨基酸匹配。 除了序列識別過濾之外,還存在其他方法,具體取決於任務嘗試測試的泛化程度。

在計算生物學中建模序列關係的關鍵技術是比對。給定乙個蛋白質資料庫和乙個測試時的新蛋白質,基於比對的方法要麼使用精心設計的評分系統來進行兩兩比較,要麼使用隱馬爾可夫模型(hidden markov model like probability model),要麼使用組合將測試蛋白質與資料庫進行比對。 如果找到了良好的對齊方式,則來自對齊方式的資訊將直接滿足當前任務的需要,或者可以將其輸入到下游模型中以供進一步使用。

由於作者將蛋白質表示為離散的標記序列的形式,並且認為該序列包含有關其結構和功能的重要資訊,作者認為可以將**下乙個標記或者掩蓋標記的**作為任務,來進行自監督學習。

最著名的蛋白質建模基準是聚焦於結構建模的結構**的關鍵評估(casp)。但作者認為單獨的結構**還不足以作為蛋白質建模的基準,因此,作者增加了casp競賽中沒有包含的任務。

蛋白質家族資料庫(pfam)是蛋白質家族的集合,每個蛋白質家族由多序列比對和隱馬爾科夫模型描述檔案表示。這個資料集構建的靈感**於cyrus chothia的**:世界上存在1500個左右不同的蛋白質家族,大部分的蛋白質來自於不超過1000個蛋白質家族。所以pfam的科學意義在於完整和精確地分類蛋白家族和結構域。

在這裡,作者介紹了他的無監督預訓練和監督基準資料集。作者使用pfam(乙個在生物資訊學中廣範使用的3100萬個蛋白質結構域的資料庫)作為tape的預訓練語料庫。監督資料集中,作者提供了五個與生物學相關的下游**任務作為基準,資料集的大小在8000個到50000個訓練示例之間變化(有關所有訓練,驗證和測試集的大小參見下表)。在分訓練集和測試集時使用兩種方式——隨機分組(random families)和根據家族進行分組(家族分組,heldout families)。

損失函式:

蛋白質特異性損失函式:研究表明對模型執行進一步監督模型的預訓練可以提供顯著的好處。

模型架構與訓練:

試驗結果如下:

baselines:作者將另外兩種特徵作為基準特徵進行了實驗。第一種是氨基酸序列的one-hot編碼。此外,目前大多數用於蛋白質建模的最新演算法都利用了比對或基於hmm的輸入。 比對可以轉化為各種特徵,例如每個氨基酸位置的突變概率或hmm狀態轉變概率。這兩種都是非神經網路的方法。作者將基於比對的資訊與one-hot編碼相連形成新的輸入特徵。

閱讀任務 閱讀筆記 4

功能驅動的設計 1 構造總體模型 2 構造功能列表 3 制定開發計畫 4 功能設計階段 5 實現具體功能 軟體測試按目的分類 1 功能測試 2 非功能測試 軟體測試的各種方法 1 單元測試和 覆蓋率測試 2 構建驗證測試 3 驗收測試 4 探索式的測試 5 回歸測試 6 場景 整合 系統測試 7 夥...

閱讀筆記 2006 01

請您尊重您的價值,因為它已經得到了社會的認可。當你貶低或破壞您的價值時,就等於貶低或破壞整個行業在這個社會的價值。無論在什麼時候,自己都應該尊重自己的價值,而不能因為一時的困境而貶低和破壞了自己的價值,因為你的破壞之舉,將傷害到整個行業的價值乃至社會的規則。因為,唯有懂得尊重自己的價值的人,才能真正...

25 211(840) 閱讀筆記

傳輸通道rach特點 存在衝突風險 使用開環功控。物理通道通過載頻 擾碼 通道化碼 起始時間定義,對於上行通道,還包括相對相位 0或p 2 上行dpch為i q碼復用。fbi bits提供從ue到網路的反饋資訊,以用於閉環傳送分集。上行dpch可以使用多碼,這種情況下,多個並行的dpdch使用不同的...