用 bash 指令碼統計詞頻

2021-04-16 05:01:01 字數 342 閱讀 6798

上週有朋友問一問題,他有乙個包含若干行ip位址的文字檔案,每個ip佔一行,需要統計每個ip在檔案中出現的次數,並且按照出現次數逆序排列。

開始的時候使用了乙個 awk 指令碼來解決這個問題:

#!/bin/awk -f

# filename: count_ip.awk

begin

end

} 再執行

$: cat ip_file | awk -f count_ip.awk | sort -nr

後來發現其實沒必要這麼麻煩,利用管道組合三條命令也可以完成這個工作:

$: sort ip_file | uniq -c | sort -rn

用python做詞頻統計

假設有乙個本地的txt檔案,想對其進行詞頻統計,可以這樣寫 import time path c users zhangxiaomei desktop walden.txt with open path,r as text words text.read split print words forw...

用Python進行詞頻統計

def gettext txt open hamlet.txt r read 讀取檔案 txt txt.lower 把文字全部變為小寫 for ch in 把特殊字元變為空格 txt txt.replace ch,return txt hamlettext gettext words hamlett...

用python統計英文文章詞頻

import re with open text.txt as f 讀取檔案中的字串 txt f.read 去除字串中的標點 數字等 txt re.sub d s txt 替換換行符,大小寫轉換,拆分成單詞列表 word list txt.replace n replace lower split ...