pacbio 採用hdf5檔案格式儲存原始的下機資料,對於rs 測序系統而言,會產生乙個 bas.h5 的檔案;
以bas.h5 檔案為例,看一下有下機資料中儲存了那些資訊
h5dump 工具可以用來檢視h5 檔案的內容:
執行下面命令:
h5dump -n m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5
可以看到這個檔案中所有的group和dataset, 由於結果太多,只展示最上層的兩個group;
group /group /pulsedata
group /scandata
通過這個命令的執行結果,可以發現,這個h5檔案中有兩個大的group : pulsedata 和 scandata
其中scandata 儲存的是和儀器相關的一些裝置資訊,就不詳細看了,重點看下pulsedata group 下的資訊;
group /pulsedatagroup /pulsedata/basecalls
group /pulsedata/consensusbasecalls
在 plusedata group 下面又有兩個subgroup, basecalls 和 consensusbasecalls ;
其中basecalls 存放的是原始的鹼基calling的結果,而consensusbasecalls 存放的是環形一致性序列(ccs)的鹼基calling的結果,
在這兩個group下有乙個相同名稱的資料集 basecall, 存放的就是鹼基序列的資訊
dataset /pulsedata/basecalls/basecalldataset /pulsedata/consensusbasecalls/basecall
使用如下命令,檢視該資料集的內容:
h5dump -d /pulsedata/consensusbasecalls/basecall m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > basecall.info
由於檔案內容太多,重定向到乙個檔案中;-d 引數指定你想要檢視的資料集的名稱
通過basecall.info 檔案中的內容可以看到,如下的資訊
data {(0): 67, 71, 67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67,
(17): 71, 71, 71, 71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84,
(34): 67, 67, 71, 84, 65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67,
(51): 67, 71, 65, 65, 65, 84, 71, 67, 67, 65, 71, 67, 71, 65, 84, 71, 67,
(68): 65, 71, 84, 71, 84, 67, 84, 71, 67, 65, 65, 67, 84, 71, 71, 67, 65,
這裡的data 就是測序得到的鹼基序列,只不過採用了ascii 編碼,a=> 65, c=> 67, g=>71, t=>84;
只有鹼基序列還不夠,我們還需要鹼基質量的資訊,對應的dataset的名稱為 qualityvalue
dataset /pulsedata/basecalls/qualityvaluedataset /pulsedata/consensusbasecalls/qualityvalue
同樣的方式檢視鹼基質量的資料:
h5dump -d /pulsedata/consensusbasecalls/qualityvalue m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > basecall.quality
通過basecall.quality 檔案中的內容可以看到,如下的資訊
data {(0): 51, 44, 42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51,
(17): 48, 48, 48, 47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30,
(35): 30, 51, 51, 7, 7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26,
(53): 27, 27, 27, 27, 51, 36, 36, 30, 30, 51, 51, 49, 49, 51, 51, 51, 51,
(70): 51, 51, 51, 51, 51, 51, 49, 44, 31, 51, 51, 20, 20, 34, 48, 48, 31,
(87): 30, 34, 36, 23, 23, 51, 26, 26, 49, 50, 45, 45, 50, 44, 41, 43, 50,
(104): 50, 51, 37, 37, 50, 51, 25, 25, 44, 51, 51, 51, 37, 37, 37, 37, 51,
這裡的data就是鹼基質量值,pacbio的鹼基質量值和illumina的鹼基質量值一樣的。
h5檔案初識
h5檔案中有兩個核心的概念 組 group 和資料集 dataset 乙個h5檔案就是 dataset 和 group 二合一的容器。dataset 簡單來講類似陣列組織形式的資料集合,像 numpy 陣列一樣工作,乙個dataset即乙個numpy.ndarray np.array只是乙個便捷的函...
h5檔案簡介
h5檔案是層次格式的第5代版本,用於儲存科學資料的一種檔案格式和庫檔案,由美國超級計算中心與應用中心研發的檔案格式,用以儲存和組織大規模資料.h5將檔案結構簡化成兩個主要的物件型別 1 資料集dataset,就是同一型別資料的多維陣列 2 組group,是一種容器結構,可以包含資料集和其他組,若乙個...
H5資料推送
眾所周知,ajax的出現是前端快速發展的乙個標誌,同時也是前後端得以分離的重要基礎。作為乙個c s網路的web系統,網路通訊在發揮著舉足輕重的作用。大部分的場景下,我們是主動觸發ajax去調取後端資料,但是總有那麼些場景是後端資料更新了再推送給前端。本文則試著和讀者一起對這個資料推送的需求進行技術方...