摘 要
如今pubmed文獻檢索系統上發表的醫學文獻的數量十分龐大,且數量逐年增加,研究人員如果想人工地去檢視找出pubmed文獻裡面的知識是絕對不可能,因此,人們轉而利用計算機去獲取文獻裡面的知識。
本篇**介紹了如何借用文字挖掘技術去挖掘出pubmed文獻裡面的知識,並且結合了目前文字挖掘技術,講述了如何實現了一套蛋白質磷酸化修飾的文字資訊挖掘系統。
本系統主要應用於挖掘出pubmed文獻裡面蛋白質磷酸化的修飾的一些資訊,包括被修飾的蛋白質,激酶,修飾位點,以及它們之間的關係。
本文詳細敘述了整套系統瀑布流模型的軟體過程,首先是需求,然後是設計,再是實現,依次展開。在實現的階段裡面又包含了文字預處理階段,命名實體識別階段,實體關係提取階段,資料視覺化階段,其中著重介紹了文字挖掘技術中兩個的關鍵也是核心階段的原理:命名實體識別和關係提取。同時也介紹了abner工具和rlims-p工具的原理和應用。此外文獻資料庫的數量龐大,為了提高程式效能和使用者體驗,於是介紹了幾種提高效率,提高使用者體驗的解決方案,其中有多執行緒處理,快取機制,預處理機制。
蛋白質濃度與鹽脅迫的關係 蛋白質的分離純化(二)
從原料中抽提得到的蛋白質溶液一般蛋白質含量較低,並含有多種雜質。對抽提液進行初步提取,也稱粗提或粗分級,主要目的是除去糖 脂類 核酸及大部分雜蛋白,並將蛋白濃縮。這一步的操作一般應該盡量簡單快速,並且適於處理大量樣品,所以以沉澱法為主,包括簡單沉澱 分級沉澱等。簡單沉澱是一次性完成,分級沉澱是分次加...
MINT 蛋白質相互作用資料庫簡介
mint,全稱molecular interaction database,是乙個蛋白質相互作用的資料庫,該資料庫中的蛋白相互作用都是由專家審核過的有實驗證據支援的,目前該資料庫涵蓋了607個物種,共117001個蛋白相互作用關係。如下 對於蛋白a和蛋白b,如果二者存在相互作用,就說存在乙個inte...
用EDA處理蛋白質資料小記
這兩天在做蛋白質資料的eda exploratory data analysis 試了table one pca volcano plot和manhattan plot。實現語言為r。資料簡要介紹 蛋白質在全血中濃度log後的值,以及一張含各variable的表。protein資料648 prote...