SAM格式詳解

2021-07-13 14:29:57 字數 1269 閱讀 8396

廢話不多說,直接看每一列的表示含義:

下文中read表示sam對應的read,mate表示sam對應read的pairread

第一列:read name,read的名字通常包括測序平台等資訊;

第二列:sum of flags,每個flag用數字來表示,分別為:

1read是pair中的一條(read表示本條read,mate表示pair中的另一條read)

2pair一正一負完美的比對上

4這條read沒有比對上

8mate沒有比對上

16這條read反向比對

32mate反向比對

64這條read是read1

128這條read是read2

256第二次比對

512比對質量不合格

1024read是pcr或光學副本產生

2048輔助比對結果

通過這個和可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和。

第六列:cigar值,read比對的具體情況,

「m」表示 match或 mismatch;

「i」表示 insert;

「d」表示 deletion;

「n」表示 skipped(跳過這段區域);

「s」表示 soft clipping(被剪下的序列存在於序列中);

「h」表示 hard clipping(被剪下的序列不存在於序列中);

「p」表示 padding;

「=」表示 match;

「x」表示 mismatch(錯配,位置是一一對應的);

第七列:mrnm(chr),mate的reference sequence name,實際上就是mate比對到的染色體號,若是沒有mate,則是*;

第九列:isize,inferred fragment size.詳見illumina中paired end sequencing 和 mate pair sequencing,是負數,推測應該是兩條read之間的間隔(待查證),若無mate則為0;

第十列:sequence,就是read的鹼基序列,如果是比對到互補鏈上則是reverse completed   eg.cgtttctgtgggtgatgggcctgaggggcgttctcn 

第十一列:ascii,read質量的ascii編碼。

第十二列之後:optional fields,可選的區域

samli檔案 SAM檔案格式介紹

在sam輸出的結果中每一行都包括十二項通過tab分隔,從左到右分別是 1 序列的名字 2 概括出乙個合適的標記,各個數字分別代表1 序列是一對序列中的乙個 2 比對結果是乙個pair end比對的末端 4 沒有找到位點 8 這個序列是pair中的乙個但是沒有找到位點 16 在這個比對上的位點,序列與...

sam格式的結構和意義 結構化程式設計

設計一整套能解決問題的程式就像蓋房子,要首先構建好房子的整體框架,然後再進行部分性的房間的布局規劃,最後進行細節的設計,這種設計方法就是自頂向下,逐步求精的設計思路。我們設計程式也要按照這種方式方法來設計,面對一項任務,先經過初步考慮,把整個任務細化為幾個子任務,如果這幾個子任務還不能一步實現完成任...

SAM學習小記

只是乙個小記,不是演算法詳解 參考資料 史上最通俗的字尾自動機詳解 廣義sam模板題解 簡單的,乙個有向無環圖,邊有字母,滿足起點開始的每一條路徑都是原串的乙個子串。並且保證複雜度在o n o n o n 級別內的。每乙個子串p pp的end pos p endpos p endpos p 被定義為...