需求:提取 1 號染色體的 21856782-21856982 和 43942666-43942866 區間的 fa 序列;
需要準備的test.gff3
檔案如下所示,第一列是染色體號,第二列和第三列的內容隨意,第四列和第五列是提取的開始位置和終止位置,第六列和第八列內容隨意,第七列是基因組的正負鏈,第九列序列的資訊,第九列必須有parent=
,;id=
,;gene_id=
資訊,不然序列提取不出來。分隔符為tab:
chr1 gene transcript 21856782 21856982 . + . parent=enst0000001234.1;id=enst0000001234.1;gene_id=enst0000001234.1
chr1 gene transcript 43942666 43942866 . + . parent=enst00000567890.1;id=enst00000567890.1;gene_id=enst00000567890.1
另外還需要基因組檔案grch38.primary_assembly.genome.fa
, 如下所示:
準備好以上兩個檔案後,用命令gffread -w test.fa -g grch38.primary_assembly.genome.fa test.gff3
即可獲取需要的序列。序列儲存在test.fa
檔案中。
線粒體和葉綠體的基因組特點 基因和基因組
基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...
人基因組(一)
人類基因組包含22條染色體和1條x或者y染色體,這些染色體長度為45 279mb,加起來共為3286mb。基於染色體的結構,全部基因可被分為常染色質 euchromatin 區域 通常包含活性基因 和異質染色質 heterochromatin 區域,後者攜帶低密度的活性基因。常染色質組成了基因組的主...
使用purge haplogs處理基因組雜合區域
falcon和canu的組裝後會得到乙個單倍型融合的基因組,用來表示二倍體基因組。之後,falcon unzip和supernova這類軟體進一步處理其中等位基因區域,將這部分區間進行拆分。當基因組某些區域可能有著比較高的雜合度,這會導致基因組該區域的兩個單倍型被分別組裝成primary conti...