在資訊理論中常用互資訊(mi,mutual information)來衡量兩個詞的相關度mi(x,y)=log2p(x,y)/p(x)p(y)
mi越大,表示兩個詞之間的結合越緊密。
當x,y關聯大時,mi(x,y)大於0;當x與y關係弱時,mi(x,y)等於0;當mi(x,y)小於0時,x與y稱為「互補關係」
這個算式看起來很直觀,但計算還是有些麻煩,因為計算概率值p(x),p(y)都需要在語料中進行分詞,
這就涉及到詞典的構成以及分詞的演算法。
下面介紹乙個簡便而直觀的演算法:
corr(x,y)= math.log10(n/nx)*math.log10(n/ny)*nxy/(nx+ny-nxy)
我寫了乙個程式進行測試,首先準備乙個詞典,然後準備大量語料,為檢索方便,用lucence建索引,然後查詢每個詞與兩個詞交集的個數。測試汽車,前兩百名結果非常好。測試乙個不常見的詞,如活性炭,得到的結果如下,還蠻不錯的。
關聯詞y
關聯詞數ny
總文章數n
nxycoorr(x,y)
活性碳不織布
1672
1127199
92.316674
活性碳迴力膠
2572
1127199
91.996593
活性碳吸音棉
2972
1127199
91.883334
活性碳珍珠棉
3172
1127199
91.831631
活性碳濾袋
3972
1127199
81.453371
活性碳防塵網
5972
1127199
91.32477
活性碳雲母片
2672
1127199
61.26853
活性碳壓敏膠
2772
1127199
61.250454
活性碳超濾膜
1972
1127199
40.92056
活性碳海棉
11972
1127199
90.82483
活性碳反滲透
15572
1127199
100.746471
活性碳濾膜
4772
1127199
40.639034
活性碳電導儀472
1127199
20.617857
活性碳銅箔
10072
1127199
60.614342
活性碳糊精
5272
1127199
40.606269
活性碳鋁粉
5272
1127199
40.606269
活性碳製冰機
2772
1127199
30.605689
活性碳水淨化
21972
1127199
100.554048
活性碳濾芯
35672
1127199
150.533304
活性碳ro膜
1472
1127199
20.489964
活性碳工業水
16572
1127199
70.489529
活性碳二氧化鈦
8372
11271994
關鍵詞與關鍵詞之間的相關度計算
在資訊理論中常用互資訊 mi,mutual information 來衡量兩個詞的相關度mi x,y log2p x,y p x p y mi越大,表示兩個詞之間的結合越緊密。當x,y關聯大時,mi x,y 大於0 當x與y關係弱時,mi x,y 等於0 當mi x,y 小於0時,x與y稱為 互補關...
二 關鍵詞 關鍵詞的選擇(二)
1 內容相關 2 搜尋次數多,競爭小 5 商業價值 一 內容相關 當然,這也不一定試用於某些 比如新聞門戶或者純粹依靠廣告贏利的資訊類 很多門戶類 包羅永珍,內容相關性判斷也比較模糊。對這些 來說,只要有流量,就有一定的價值,並不依靠本身的轉化贏利。二 搜尋次數多,競爭小 一般行業通稱都是國語寬泛的...
關鍵詞密度
百科名片 目錄 隱藏 什麼是增加keywords密度的最好方式 關鍵字堆砌 keyword stuffing 的定義 關鍵字堆砌 keyword stuffing 關鍵字堆砌 keyword stuffing 是指在乙個網頁中非常密集地放置關鍵字。一般說來,如果關鍵字的出現過於頻繁,就會蓋過網頁的其...