htslib/sam.h是利用c語言對sam檔案進行處理,因此需要了解sam檔案格式。
官方說明文件:
sam檔案是一種通用的以tab為分隔符的比對格式,用來儲存reads道參考序列的比對資訊。
sam分為兩部分,注釋資訊和比對結果資訊,除注釋外,每一行是乙個read
主要有
@hd,說明符合標準的版本、對比序列的排列順序;
@sq,參考序列說明;
@rg,比對上的序列(read)說明;
@pg,使用的程式說明;
@co,任意的說明資訊。
mate: illumina兩種測序技術,paired end sequencing, mate pair sequencing。這兩種測序測的是乙個片段的兩端,這兩端產生的reads是mate1 mate2
11個必須欄位和乙個可選的字段,順序固定
1. readid: 比對片段的編號
2. samflag: 位標識,每乙個數字為一種比對情況,這裡的數值是符合情況的數字相加。
flag取值,轉換成二進位制很好明白
例如147 = 128 + 16 + 2 + 1
csv檔案格式說明
csv檔案應用很廣泛,歷史也很悠久。有很多種型別的csv格式,常用的是rfc 4180定義的格式。csv檔案包含一行或多行記錄,每行記錄中包含乙個或多個字段。記錄與記錄之間使用換行符分隔,最後乙個記錄可以沒有換行符。field1,field2,field3空白不會分隔字段。例如下面有3個字段,第乙個...
bam檔案格式說明
1.序列是一對序列中的乙個 2.比對結果是乙個pair end比對的末端 4.沒有找到位點 8.這個序列是pair中的乙個但是沒有找到位點 16.在這個比對上的位點,序列與參考序列反向互補 32.這個序列在pair end中的的mate序列與參考序列反響互補 64.序列是 mate 1 128.序列...
ply檔案格式詳細說明
典型的 ply 檔案結構 頭部頂點列表 麵片列表 其他元素列表 頭部是一系列以回車結尾的文字行,用來描述檔案的剩餘部分。頭部包含乙個對每個元素型別的描述,包括元素名 如 邊 這個元素在工程裡有多少,以及一 個與這個元素關聯的不同屬性的列表。頭部還說明這個檔案是二進位制的或者是ascii的。頭部後面的...