[請教]統計檔案a.txt中「每個單詞」的重複出現次數?若該檔案大到幾個g又該如何處理?
方案一:
#!/bin/sh
#定義原始檔和臨時檔案
srcfile=word.txt
tempfile_words=tempfile_words
tempfile_words_uniq=tempfile_words_uniq
#取出所有單詞,存入臨時檔案$tempfile_words,一行乙個單詞
#去除$tempfile_words中重複單詞,並把換行符替換為空格,存入臨時檔案$tempfile_words_uniq
tr "[\015]" "[\n]"<$srcfile|sed 's/[^0-9a-za-z ]*\([0-9a-za-z]*\)[^0-9a-za-z]*/\1\n/g'|sed '/^$/d'>$tempfile_words
sort $tempfile_words|uniq|tr "[\n]" "[ ]">$tempfile_words_uniq
#遍歷所有單詞,統計數目
words=$(cat $tempfile_words_uniq)
for word in $words
do
word_num=$(grep $word $tempfile_words|wc -l)
echo $word $word_num
done
方案二:
tr -s "\t| " "\n" < filename | sort | uniq -c | sort -n -k 1 -r
統計單詞出現頻率
這裡有乙個大文字,檔案請從 獲取,在解壓後大約有20m 實際比賽時檔案是1.1g 文字中都是英文單詞,空格以及英文的標點符號 句號,逗號,分號,破折號,波浪號,雙引號,問號,單引號,感嘆號 請統計出該文字中最常出現的前10個單詞 不區分大小寫 請注意,在統計中這20個單詞請忽略 the,and,i,...
統計檔案中單詞個數
狀態機基本適合所有的遊戲專案,做做雜兵啦,做做boss啦,做做選單啦啥的。當它有超過兩個狀態,就可以去考慮做個狀態機了 要不還是if方便 這樣在工程迭代的時候很容易加入新的更新。include include include define init word 0 初始化單詞,預編譯時被替換 defi...
統計單詞中出現的單詞數
描述 笨小熊的詞彙量很小,所以每次做英語選擇題的時候都很頭疼。但是他找到了一種方法,經試驗證明,用這種方法去選擇選項的時候選對的機率非常大!這種方法的具體描述如下 假設maxn是單詞中出現次數最多的字母的出現次數,minn是單詞中出現次數最少的字母的出現次數,如果maxn minn是乙個質數,那麼笨...