MT 垃圾評論的關鍵詞詞頻統計

perl -pe '~s/\w/\n/g' 將所有的非字符集變成回車（一行乙個詞）

awk '' 濾出長度大於1的字串，字元統一變成小寫

sort|uniq -c|sort -rn | head -100 排序，計數，彙總，取top 100個

2007-07-30更新：對trackback中的統計

匯出指令碼：

select `tbping_excerpt` , `tbping_title` , `tbping_source_url` from `mt_tbping` where `tbping_visible` =0 into outfile '/tmp/tb.log';

統計指令碼：

車東發表於：2006-06-07 08:06 最後更新於：2007-07-30 09:07

« sarah khider的blog | (回到blog入口)|(回到首頁) | 使用雅虎實現免費站內搜尋 »

[再編輯]

使用Python快速統計關鍵詞及其詞頻

1.通過jieba庫分詞獲取所有的詞語列表 2.計算列表裡出現詞語及其對應的頻次，儲存為字典 3.刪除字典中鍵為無關且頻次高的詞語的鍵值對 4.對字典裡的詞語按照頻次進行排序 5.輸出頻次前五的詞語及其頻次如果沒有安裝 jieba 庫，需要使用 cmd 進入命令提示符視窗，通過 pip insta...

使用者評論，關鍵詞遮蔽

badword array 小黃小白小藍 array fill index,number,value 函式用給定的鍵值填充陣列。array fill 0,count badword 結果 array 0 1 2 array combine 函式通過合併兩個陣列來建立乙個新陣列，其中的乙個陣列元素...

二關鍵詞關鍵詞的選擇（二）

1 內容相關 2 搜尋次數多，競爭小 5 商業價值一內容相關當然，這也不一定試用於某些比如新聞門戶或者純粹依靠廣告贏利的資訊類很多門戶類包羅永珍，內容相關性判斷也比較模糊。對這些來說，只要有流量，就有一定的價值，並不依靠本身的轉化贏利。二搜尋次數多，競爭小一般行業通稱都是國語寬泛的...

MT 垃圾評論的關鍵詞詞頻統計

使用Python快速統計關鍵詞及其詞頻

使用者評論，關鍵詞遮蔽

二 關鍵詞 關鍵詞的選擇（二）

相關推薦

二關鍵詞關鍵詞的選擇（二）