pacbio 原始下機資料h5 檔案簡介

pacbio 採用hdf5檔案格式儲存原始的下機資料，對於rs 測序系統而言，會產生乙個 bas.h5 的檔案;

以bas.h5 檔案為例，看一下有下機資料中儲存了那些資訊

h5dump 工具可以用來檢視h5 檔案的內容：

執行下面命令：

h5dump -n  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5

可以看到這個檔案中所有的group和dataset, 由於結果太多，只展示最上層的兩個group；

group /

group /pulsedata

group /scandata

通過這個命令的執行結果，可以發現，這個h5檔案中有兩個大的group : pulsedata 和 scandata

其中scandata 儲存的是和儀器相關的一些裝置資訊，就不詳細看了，重點看下pulsedata group 下的資訊；

group /pulsedata

group /pulsedata/basecalls

group /pulsedata/consensusbasecalls

在 plusedata group 下面又有兩個subgroup, basecalls 和 consensusbasecalls ;

其中basecalls 存放的是原始的鹼基calling的結果，而consensusbasecalls 存放的是環形一致性序列（ccs）的鹼基calling的結果，

在這兩個group下有乙個相同名稱的資料集 basecall, 存放的就是鹼基序列的資訊

dataset /pulsedata/basecalls/basecall

dataset /pulsedata/consensusbasecalls/basecall

使用如下命令，檢視該資料集的內容：

h5dump -d /pulsedata/consensusbasecalls/basecall  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > basecall.info

由於檔案內容太多，重定向到乙個檔案中；-d 引數指定你想要檢視的資料集的名稱

通過basecall.info 檔案中的內容可以看到，如下的資訊

data {
(0): 67, 71, 67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67,
(17): 71, 71, 71, 71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84,
(34): 67, 67, 71, 84, 65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67,
(51): 67, 71, 65, 65, 65, 84, 71, 67, 67, 65, 71, 67, 71, 65, 84, 71, 67,
(68): 65, 71, 84, 71, 84, 67, 84, 71, 67, 65, 65, 67, 84, 71, 71, 67, 65,

這裡的data 就是測序得到的鹼基序列，只不過採用了ascii 編碼，a=> 65, c=> 67, g=>71, t=>84;

只有鹼基序列還不夠，我們還需要鹼基質量的資訊，對應的dataset的名稱為 qualityvalue

dataset /pulsedata/basecalls/qualityvalue

dataset /pulsedata/consensusbasecalls/qualityvalue

同樣的方式檢視鹼基質量的資料：

h5dump -d /pulsedata/consensusbasecalls/qualityvalue  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > basecall.quality

通過basecall.quality 檔案中的內容可以看到，如下的資訊

data {
(0): 51, 44, 42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51,
(17): 48, 48, 48, 47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30,
(35): 30, 51, 51, 7, 7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26,
(53): 27, 27, 27, 27, 51, 36, 36, 30, 30, 51, 51, 49, 49, 51, 51, 51, 51,
(70): 51, 51, 51, 51, 51, 51, 49, 44, 31, 51, 51, 20, 20, 34, 48, 48, 31,
(87): 30, 34, 36, 23, 23, 51, 26, 26, 49, 50, 45, 45, 50, 44, 41, 43, 50,
(104): 50, 51, 37, 37, 50, 51, 25, 25, 44, 51, 51, 51, 37, 37, 37, 37, 51,

這裡的data就是鹼基質量值，pacbio的鹼基質量值和illumina的鹼基質量值一樣的。

h5檔案初識

h5檔案中有兩個核心的概念組 group 和資料集 dataset 乙個h5檔案就是 dataset 和 group 二合一的容器。dataset 簡單來講類似陣列組織形式的資料集合，像 numpy 陣列一樣工作，乙個dataset即乙個numpy.ndarray np.array只是乙個便捷的函...

h5檔案簡介

h5檔案是層次格式的第5代版本,用於儲存科學資料的一種檔案格式和庫檔案,由美國超級計算中心與應用中心研發的檔案格式,用以儲存和組織大規模資料.h5將檔案結構簡化成兩個主要的物件型別 1 資料集dataset,就是同一型別資料的多維陣列 2 組group,是一種容器結構,可以包含資料集和其他組,若乙個...

H5資料推送

眾所周知，ajax的出現是前端快速發展的乙個標誌，同時也是前後端得以分離的重要基礎。作為乙個c s網路的web系統，網路通訊在發揮著舉足輕重的作用。大部分的場景下，我們是主動觸發ajax去調取後端資料，但是總有那麼些場景是後端資料更新了再推送給前端。本文則試著和讀者一起對這個資料推送的需求進行技術方...

pacbio 原始下機資料h5 檔案簡介

h5檔案初識

h5檔案簡介

H5資料推送

相關推薦