shell 統計大檔案中某列每個字元出現的字數

2021-10-10 07:25:14 字數 575 閱讀 7158

對於幾百萬條記錄的檔案,用python處理起來會慢很多,這時候可以結合awk grep 等使用

需求:獲取2020001082.snp_indel.hg19_multianno.pro.txt 檔案中第十列中每次字元的個數

#!/bin/bash

#for i in `cut -f 10 2020001082.snp_indel.hg19_multianno.pro.txt|sort |uniq -d # 這句總是報告**最後一行的下面一行syntax error: eof in backquote substitution 錯誤提示

cut -f 10 2020001082.snp_indel.hg19_multianno.pro.txt|sort |uniq -d|while read i

do echo -n "$ number is \n" >> count.result.txt

awk '' 2020001082.snp_indel.hg19_multianno.pro.txt|grep "$"|wc -l >> count.result.txt

done

用shell查詢某目錄下的最大檔案

這是乙個很有趣的問題,因為作為乙個shell菜鳥,我第一時間是沒有任何想法的。心裡納悶為什麼這樣的操作linux居然沒有直接的命令實現這樣的查詢。很自然地,第一感覺就是用awk去實現,因為菜鳥我看awk看得傻了 ls l awk d sort nr head 1 明顯ls檢視完整的檔案資訊,過濾掉d...

Linux中Shell擷取某行某列資訊

背景 執行shell命令,抓取shell返回資訊中的所需資訊,已udhcpc為例獲取dns的位址。暫不作處理,執行udhcpc。使用grep過濾掉無用資訊,執行 udhcpc grep dns 使用sed抓取第二行,n 2p 代表第二行,n 1,3p 代表第一到三行,以回車換行符區分。執行 udhc...

使用awk去掉檔案中某列重複的行

原資料檔案test格式如下 30 nov 2014 09 30 42 192.168.0.112 54eb28a7 149fe14728b 1e07 1417309903531 fi t tf bbb 30 nov 2014 09 30 42 192.168.0.112 54eb28a7 149fe...