第一次寫部落格,分享乙個做的提取基因序列的程式,根據bed檔案裡的位置資訊從基因組裡提取序列
bed檔案通常用來儲存注釋基因資訊,bed檔案必須的3列:
chrom - 染色體號
chromstart - feature在染色體上起始位置(其實編號為0)
chromend - feature在染色體上末尾位置(不包括此編號)
第四列是基因的名稱
程式依賴 pyfasta模組(
安裝pyfasta的命令:pip install pyfasta
BED檔案格式
bed 檔案格式 bed檔案格式提供了一種靈活的方式來定義的資料行,以用來描述注釋資訊。bed行有3個必須的列和9個額外可選的列。每行的資料格式要求一致。必須包含的3列 1.chrom 染色體名字 e.g.chr3,chry,chr2 random 或scafflold 的名字 e.g.scaffo...
BED 檔案格式
原文 bed檔案格式 bed檔案格式提供了一種靈活的方式來定義的資料行,以用來描述注釋資訊,用於展示序列注釋資訊。bed行有 3個必須的列 和9個額外可選的列 以tab隔開。每行的資料格式要求一致。必須包含的3列 1.chrom 染色體名字 e.g.chr3,chry,chr2 random 或sc...
多行fasta檔案分解成單個檔案
在使用kmer進行統計時,需要分別統計每條序列的kmer數目。如果所有樣本的fasta檔案均在乙個多行fasta檔案裡,如果把每一條序列提取出來?有兩種方法,第一種方法先把序列id提取出來,然後採用grp for迴圈的方法 獲得序列的id grep multiline.fa sed s fas.id...