biopython是python的乙個庫,這個庫可以解決很多生物上的問題,使大量的生物資料簡單化,是個很好用的包。
對於資料庫上的各種資訊,有專門的函式處理,不用按照常規的文字處理方法,寫大量的**。比如很常見的報告中展示的參考文獻,一般思路是有了文章的pmid,然後通過爬蟲的方法,獲取這些文章的title,author,source等資訊。
from bio import entrez
entrez.email = '*********[email protected]' # always tell who you are
handle = entrez.egquery(term="epilepsy")
record = entrez.read(handle)
for row in record["egqueryresult"]:
if row["dbname"]=="pubmed":
print row["count"] #total is 143833
可以看到在pubmed資料庫中有epilepsy有關的文章有143833,所以取前40個看下輸出的資訊是什麼。
輸入上面的pmid,去驗證一下是否真的和 epilepsy有關,發現是真的。取前10個測試一下。
parse對於大檔案使解析使用,變成乙個迭代器。
id =idlist[0:10]
from bio import medline
handle = entrez.efetch(db="pubmed", id=id, rettype="medline",retmode="text")
records = medline.parse(handle)
records = list(records) #records 是乙個迭代器,所以只能訪問這些records一次。如果想儲存這些records,需要把他們轉成列表。
對於大量的資料,可以通過history來操作。具體見
長尾關鍵詞挖掘技巧五 如何根據關鍵詞寫文章
大家好,我是虛子雨。前面我給大家寫了四篇關於長尾詞挖掘技巧的文章,這裡就以第四篇為例 長尾關鍵詞挖掘技巧四 挖掘的具體工作 在這四篇文章中我介紹的都是關於長尾詞具體的該怎樣去挖掘,很多朋友看過之後覺得很不錯,很多人都跟我做了一定的交流,也有人要求我寫今天的這個主題。其實在做這個系列之前我就想好了在這...
關鍵詞密度
百科名片 目錄 隱藏 什麼是增加keywords密度的最好方式 關鍵字堆砌 keyword stuffing 的定義 關鍵字堆砌 keyword stuffing 關鍵字堆砌 keyword stuffing 是指在乙個網頁中非常密集地放置關鍵字。一般說來,如果關鍵字的出現過於頻繁,就會蓋過網頁的其...
關鍵詞提取
隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...