SAM BAM檔案格式說明及舉例

2021-10-25 00:14:00 字數 576 閱讀 3068

htslib/sam.h是利用c語言對sam檔案進行處理,因此需要了解sam檔案格式。

官方說明文件:

sam檔案是一種通用的以tab為分隔符的比對格式,用來儲存reads道參考序列的比對資訊。

sam分為兩部分,注釋資訊和比對結果資訊,除注釋外,每一行是乙個read

主要有

@hd,說明符合標準的版本、對比序列的排列順序;

@sq,參考序列說明;

@rg,比對上的序列(read)說明;

@pg,使用的程式說明;

@co,任意的說明資訊。

mate: illumina兩種測序技術,paired end sequencing,  mate pair sequencing。這兩種測序測的是乙個片段的兩端,這兩端產生的reads是mate1 mate2

11個必須欄位和乙個可選的字段,順序固定

1. readid: 比對片段的編號

2. samflag: 位標識,每乙個數字為一種比對情況,這裡的數值是符合情況的數字相加。

flag取值,轉換成二進位制很好明白

例如147 = 128 + 16 + 2 + 1

csv檔案格式說明

csv檔案應用很廣泛,歷史也很悠久。有很多種型別的csv格式,常用的是rfc 4180定義的格式。csv檔案包含一行或多行記錄,每行記錄中包含乙個或多個字段。記錄與記錄之間使用換行符分隔,最後乙個記錄可以沒有換行符。field1,field2,field3空白不會分隔字段。例如下面有3個字段,第乙個...

bam檔案格式說明

1.序列是一對序列中的乙個 2.比對結果是乙個pair end比對的末端 4.沒有找到位點 8.這個序列是pair中的乙個但是沒有找到位點 16.在這個比對上的位點,序列與參考序列反向互補 32.這個序列在pair end中的的mate序列與參考序列反響互補 64.序列是 mate 1 128.序列...

ply檔案格式詳細說明

典型的 ply 檔案結構 頭部頂點列表 麵片列表 其他元素列表 頭部是一系列以回車結尾的文字行,用來描述檔案的剩餘部分。頭部包含乙個對每個元素型別的描述,包括元素名 如 邊 這個元素在工程裡有多少,以及一 個與這個元素關聯的不同屬性的列表。頭部還說明這個檔案是二進位制的或者是ascii的。頭部後面的...