統計fasta序列條數

2022-07-18 18:00:20 字數 554 閱讀 9203

# 通過搜尋》的數量

grep -c '^>' myfasta.fasta

1397492

#seqkit統計提取,速度也是很快的

seqkit stats t.fa -t | grep -v file | cut -f 4

1397492

# 統計 1-100bp 範圍長的序列數

cat t.fa | seqkit seq -m 1 -m 100 | seqkit stat -t | grep -v file | cut -f 4

壓縮格式解壓,統計行數除以4

# 通常以fastq.gz格式壓縮

zcat input.fastq.gz | awk 'nr%4==2 end'

# 推薦下面的方法 pigz 會比gzip快10倍

pigz -dc input.fastq.gz | awk 'nr%4==2 end'

# 如果不是壓縮格式

cat input.fastq | awk 'nr%4==2 end'

perl統計各個fasta序列長度及其出現次數

usr bin perl use strict use warnings my seq my hash my id my length 讀取控制代碼,input為標準fasta資料格式,即一行id,一行序列 open in,ar 0 ordie 輸出檔名已經固定 open out,read stat...

根據id提取fasta序列

bioperl讀入寫出fasta 要求根據序列id,從fasta檔案中提取目標序列並輸出 資料序列id fasta檔案 思路以序列id為鍵,構建雜湊 用bioperl讀入fasta,獲得序列id 如果id存在於雜湊中,輸出序列 die perl 0 unless ar 3 0程式名 use bio ...

MySQL 分組後,統計記錄條數

分組後,統計記錄條數 select num,count as counts from test a group by num 查詢結果如下 對num去重後的數量的統計 select count t.counts from select num,count as counts from test a ...