幫朋友處理sam各式檔案,又記不住sam各式每列代表的什麼內容,乾脆轉個帖子留著以後查詢。
在sam輸出的結果中每一行都包括十二項通過tab分隔,從左到右分別是:
1 序列的名字
2 概括出乙個合適的標記,各個數字分別代表
1? 序列是一對序列中的乙個
2? 比對結果是乙個pair-end比對的末端
4? 沒有找到位點
8? 這個序列是pair中的乙個但是沒有找到位點
16? 在這個比對上的位點,序列與參考序列反向互補
32? 這個序列在pair-end中的的mate序列與參考序列反響互補
64 序列是 mate 1
128 序列是 mate 2
假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和。
3? 參考序列的名字
4 在參考序列上的位置
q值的計算方法來自與sam標準格式,請檢視sam總結。
6 代表比對結果的cigar字串,如37m1d2m1i,這段字元的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。m代表的是alignment match(可以是錯配)
7? mate 序列所在參考序列的名稱
8 mate 序列在參考序列上的位置
9? 估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。
10 read的序列
11 ascii碼格式的序列質量
12 可選的區域
as:i? 匹配的得分
xs:i? 第二好的匹配的得分
ys:i? mate 序列匹配的得分
xn:i? 在參考序列上模糊鹼基的個數
xm:i? 錯配的個數
xo:i? gap open的個數
xg:i? gap 延伸的個數
nm:i? 經過編輯的序列
yf:i? 說明為什麼這個序列被過濾的字串
yt:z
md:z? 代表序列和參考序列錯配的字串
bam檔案格式說明
1.序列是一對序列中的乙個 2.比對結果是乙個pair end比對的末端 4.沒有找到位點 8.這個序列是pair中的乙個但是沒有找到位點 16.在這個比對上的位點,序列與參考序列反向互補 32.這個序列在pair end中的的mate序列與參考序列反響互補 64.序列是 mate 1 128.序列...
bam檔案讀取 bam格式檔案處理大全 一)
sam檔案是短序列比對生成的檔案,是二代測序中最核心的檔案。在rnaseq,變異檢測等分析中,都需要首先生成sam檔案格式。bam檔案是sam格式的二進位制格式,轉換為二進位制之後,可以減小檔案的儲存。掌握sam bam檔案的操作是處理二代測序資料的非常重要的內容,例如sam與bam的轉換,排序,建...
Mysql獲取序列值
select identity string sql select identity identity是表示的是最近一次向具有identity屬性 即自增列 的表插入資料時對應的自增列的值,是系統定義的全域性變數。一般系統定義的全域性變數都是以 開頭,使用者自定義變數以 開頭。比如有個表a,它的自增...