perl -pe '~s/\w/\n/g' 將所有的非字符集變成回車(一行乙個詞)
awk '' 濾出長度大於1的字串,字元統一變成小寫
sort|uniq -c|sort -rn | head -100 排序,計數,彙總,取top 100個
2007-07-30更新: 對trackback中的統計
匯出指令碼:
select `tbping_excerpt` , `tbping_title` , `tbping_source_url` from `mt_tbping` where `tbping_visible` =0 into outfile '/tmp/tb.log';
統計指令碼:
perl -pe '~s/\w/\n/g' /tmp/tb.log |awk ''|sort|uniq -c|sort -rn | head -100
車東 發表於:2006-06-07 08:06 最後更新於:2007-07-30 09:07
« sarah khider的blog | (回到blog入口)|(回到首頁) | 使用雅虎實現免費站內搜尋 »
[再編輯]
使用Python快速統計關鍵詞及其詞頻
1.通過jieba庫分詞獲取所有的詞語列表 2.計算列表裡出現詞語及其對應的頻次,儲存為字典 3.刪除字典中鍵為無關且頻次高的詞語的鍵值對 4.對字典裡的詞語按照頻次進行排序 5.輸出頻次前五的詞語及其頻次 如果沒有安裝 jieba 庫,需要使用 cmd 進入命令提示符視窗,通過 pip insta...
使用者評論,關鍵詞遮蔽
badword array 小黃 小白 小藍 array fill index,number,value 函式用給定的鍵值填充陣列。array fill 0,count badword 結果 array 0 1 2 array combine 函式通過合併兩個陣列來建立乙個新陣列,其中的乙個陣列元素...
二 關鍵詞 關鍵詞的選擇(二)
1 內容相關 2 搜尋次數多,競爭小 5 商業價值 一 內容相關 當然,這也不一定試用於某些 比如新聞門戶或者純粹依靠廣告贏利的資訊類 很多門戶類 包羅永珍,內容相關性判斷也比較模糊。對這些 來說,只要有流量,就有一定的價值,並不依靠本身的轉化贏利。二 搜尋次數多,競爭小 一般行業通稱都是國語寬泛的...