根據bed檔案從fasta檔案中獲取基因序列

第一次寫部落格，分享乙個做的提取基因序列的程式，根據bed檔案裡的位置資訊從基因組裡提取序列

bed檔案通常用來儲存注釋基因資訊，bed檔案必須的3列:

chrom - 染色體號

chromstart - feature在染色體上起始位置（其實編號為0）

chromend - feature在染色體上末尾位置（不包括此編號）

第四列是基因的名稱

程式依賴 pyfasta模組（

安裝pyfasta的命令：pip install pyfasta

BED檔案格式

bed 檔案格式 bed檔案格式提供了一種靈活的方式來定義的資料行，以用來描述注釋資訊。bed行有3個必須的列和9個額外可選的列。每行的資料格式要求一致。必須包含的3列 1.chrom 染色體名字 e.g.chr3，chry,chr2 random 或scafflold 的名字 e.g.scaffo...

BED 檔案格式

原文 bed檔案格式 bed檔案格式提供了一種靈活的方式來定義的資料行，以用來描述注釋資訊，用於展示序列注釋資訊。bed行有 3個必須的列和9個額外可選的列以tab隔開。每行的資料格式要求一致。必須包含的3列 1.chrom 染色體名字 e.g.chr3，chry,chr2 random 或sc...

多行fasta檔案分解成單個檔案

在使用kmer進行統計時，需要分別統計每條序列的kmer數目。如果所有樣本的fasta檔案均在乙個多行fasta檔案裡，如果把每一條序列提取出來？有兩種方法，第一種方法先把序列id提取出來，然後採用grp for迴圈的方法獲得序列的id grep multiline.fa sed s fas.id...

根據bed檔案從fasta檔案中獲取基因序列

BED檔案格式

BED 檔案格式

多行fasta檔案分解成單個檔案

相關推薦