`1. 序列是一對序列中的乙個`
`2. 比對結果是乙個pair-end比對的末端`
`4. 沒有找到位點`
`8. 這個序列是pair中的乙個但是沒有找到位點`
`16. 在這個比對上的位點,序列與參考序列反向互補`
`32. 這個序列在pair-end中的的mate序列與參考序列反響互補`
`64. 序列是 mate 1`
`128. 序列是 mate 2`
假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和,可以使用二進位制數來表示
3
參考序列的名字
4
在參考序列上的位置
5
q值的計算方法來自與sam標準格式,請檢視sam總結。
6
代表比對結果的cigar字串,如37m1d2m1i,這段字元的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。m代表的是alignment match(可以是錯配),可以理解為表示比對的具體情況
7
mate 序列所在參考序列的名稱,mate一般指大的片段序列
8
mate 序列在參考序列上的位置
9
估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。
10
read的序列
11
read序列對應的ascii碼格式的鹼基質量值
12
可選的區域 header section
其中header section用不同的tag表示不同的資訊,主要有@hd,說明符合標準的版本、對比序列的排列順序
;@sq,參考序列說明
;@rg,比對上的序列(read)說明
;@pg,使用的程式說明
;@co,任意的說明資訊
。tag以鍵值對的形式存在。
as:i 匹配的得分
xs:i 第二好的匹配的得分
ys:i mate 序列匹配的得分
xn:i 在參考序列上模糊鹼基的個數
xm:i 錯配的個數
xo:i gap open的個數
xg:i gap 延伸的個數
nm:i 經過編輯的序列
yf:i 說明為什麼這個序列被過濾的字串
yt:z
md:z? 代表序列和參考序列錯配的字串
csv檔案格式說明
csv檔案應用很廣泛,歷史也很悠久。有很多種型別的csv格式,常用的是rfc 4180定義的格式。csv檔案包含一行或多行記錄,每行記錄中包含乙個或多個字段。記錄與記錄之間使用換行符分隔,最後乙個記錄可以沒有換行符。field1,field2,field3空白不會分隔字段。例如下面有3個字段,第乙個...
bam獲取序列 bam sam格式說明
幫朋友處理sam各式檔案,又記不住sam各式每列代表的什麼內容,乾脆轉個帖子留著以後查詢。在sam輸出的結果中每一行都包括十二項通過tab分隔,從左到右分別是 1 序列的名字 2 概括出乙個合適的標記,各個數字分別代表 1?序列是一對序列中的乙個 2?比對結果是乙個pair end比對的末端 4?沒...
bam檔案讀取 bam格式檔案處理大全 一)
sam檔案是短序列比對生成的檔案,是二代測序中最核心的檔案。在rnaseq,變異檢測等分析中,都需要首先生成sam檔案格式。bam檔案是sam格式的二進位制格式,轉換為二進位制之後,可以減小檔案的儲存。掌握sam bam檔案的操作是處理二代測序資料的非常重要的內容,例如sam與bam的轉換,排序,建...