bam檔案的理解
$ less -sn in.sam # 開啟sam檔案
$ samtools view -h in.bam # 開啟bam檔案
接下來我們重點看看每一列在我們的分析中起到的作用。
- reads name: 每一條reads的查詢名稱,**於fastq檔案;
- flag:flag是比對質量的重要資訊,不同的值代表比對結果的型別。flag是比對結果質量的乙個直觀表述。該值是乙個10進製的結果,根據**可轉換成二進位制對應的質量描述,用來對資料進行過濾。比如說過濾掉未比對到參考基因組的reads(flag=4),過濾掉二次比對的reads(flag=256),過濾掉嵌合reads(flag=2048),使用samtools過濾的方法為:
samtools view -h -q 20 -f 4 -f 256 -f 2048 -sb sample.bam > sample.filter.bam
比如十進位制資料77 = 000001001101 = 1 + 4 + 8 +64,這樣就得到了這個flag包含的意思:pe read,read比對不上參考序列,它的配對read也同樣比不上參考序列,它是read1。
二進位制的質量描述見下表:
$ samtools tview --reference hg38.fa in.bam
在該模式下,按下鍵盤『g』後,會跳出乙個goto框,在裡面輸入想要調整過去的位置,就行了,比如:
bam檔案讀取 bam格式檔案處理大全 一)
sam檔案是短序列比對生成的檔案,是二代測序中最核心的檔案。在rnaseq,變異檢測等分析中,都需要首先生成sam檔案格式。bam檔案是sam格式的二進位制格式,轉換為二進位制之後,可以減小檔案的儲存。掌握sam bam檔案的操作是處理二代測序資料的非常重要的內容,例如sam與bam的轉換,排序,建...
Pysam 處理bam檔案
pysam可用來處理bam檔案 安裝 用 pip 或者 conda即可 使用 pysam的函式有很多,主要的讀取函式有 一般常用的是第乙個和第二個。例子 1 import pysam 23 bf pysam.alignmentfile in.bam rb 其中r read,b binary.二進位制...
bam檔案格式說明
1.序列是一對序列中的乙個 2.比對結果是乙個pair end比對的末端 4.沒有找到位點 8.這個序列是pair中的乙個但是沒有找到位點 16.在這個比對上的位點,序列與參考序列反向互補 32.這個序列在pair end中的的mate序列與參考序列反響互補 64.序列是 mate 1 128.序列...