上週有朋友問一問題,他有乙個包含若干行ip位址的文字檔案,每個ip佔一行,需要統計每個ip在檔案中出現的次數,並且按照出現次數逆序排列。
開始的時候使用了乙個 awk 指令碼來解決這個問題:
#!/bin/awk -f
# filename: count_ip.awk
begin
end
} 再執行
$: cat ip_file | awk -f count_ip.awk | sort -nr
後來發現其實沒必要這麼麻煩,利用管道組合三條命令也可以完成這個工作:
$: sort ip_file | uniq -c | sort -rn
用python做詞頻統計
假設有乙個本地的txt檔案,想對其進行詞頻統計,可以這樣寫 import time path c users zhangxiaomei desktop walden.txt with open path,r as text words text.read split print words forw...
用Python進行詞頻統計
def gettext txt open hamlet.txt r read 讀取檔案 txt txt.lower 把文字全部變為小寫 for ch in 把特殊字元變為空格 txt txt.replace ch,return txt hamlettext gettext words hamlett...
用python統計英文文章詞頻
import re with open text.txt as f 讀取檔案中的字串 txt f.read 去除字串中的標點 數字等 txt re.sub d s txt 替換換行符,大小寫轉換,拆分成單詞列表 word list txt.replace n replace lower split ...