關鍵詞與關鍵詞之間的相關度計算

2021-04-12 14:11:47 字數 1779 閱讀 4178

在資訊理論中常用互資訊(mi,mutual information)來衡量兩個詞的相關度mi(x,y)=log2p(x,y)/p(x)p(y)

mi越大,表示兩個詞之間的結合越緊密。

當x,y關聯大時,mi(x,y)大於0;當x與y關係弱時,mi(x,y)等於0;當mi(x,y)小於0時,x與y稱為「互補關係」

這個算式看起來很直觀,但計算還是有些麻煩,因為計算概率值p(x),p(y)都需要在語料中進行分詞,

這就涉及到詞典的構成以及分詞的演算法。

下面介紹乙個簡便而直觀的演算法:

corr(x,y)= math.log10(n/nx)*math.log10(n/ny)*nxy/(nx+ny-nxy)

我寫了乙個程式進行測試,首先準備乙個詞典,然後準備大量語料,為檢索方便,用lucence建索引,然後查詢每個詞與兩個詞交集的個數。測試汽車,前兩百名結果非常好。測試乙個不常見的詞,如活性炭,得到的結果如下,還蠻不錯的。

關聯詞y

關聯詞數ny

總文章數n

nxycoorr(x,y)

活性碳不織布

1672

1127199

92.316674

活性碳迴力膠

2572

1127199

91.996593

活性碳吸音棉

2972

1127199

91.883334

活性碳珍珠棉

3172

1127199

91.831631

活性碳濾袋

3972

1127199

81.453371

活性碳防塵網

5972

1127199

91.32477

活性碳雲母片

2672

1127199

61.26853

活性碳壓敏膠

2772

1127199

61.250454

活性碳超濾膜

1972

1127199

40.92056

活性碳海棉

11972

1127199

90.82483

活性碳反滲透

15572

1127199

100.746471

活性碳濾膜

4772

1127199

40.639034

活性碳電導儀472

1127199

20.617857

活性碳銅箔

10072

1127199

60.614342

活性碳糊精

5272

1127199

40.606269

活性碳鋁粉

5272

1127199

40.606269

活性碳製冰機

2772

1127199

30.605689

活性碳水淨化

21972

1127199

100.554048

活性碳濾芯

35672

1127199

150.533304

活性碳ro膜

1472

1127199

20.489964

活性碳工業水

16572

1127199

70.489529

活性碳二氧化鈦

8372

11271994

關鍵詞與關鍵詞之間的相關度計算

在資訊理論中常用互資訊 mi,mutual information 來衡量兩個詞的相關度mi x,y log2p x,y p x p y mi越大,表示兩個詞之間的結合越緊密。當x,y關聯大時,mi x,y 大於0 當x與y關係弱時,mi x,y 等於0 當mi x,y 小於0時,x與y稱為 互補關...

二 關鍵詞 關鍵詞的選擇(二)

1 內容相關 2 搜尋次數多,競爭小 5 商業價值 一 內容相關 當然,這也不一定試用於某些 比如新聞門戶或者純粹依靠廣告贏利的資訊類 很多門戶類 包羅永珍,內容相關性判斷也比較模糊。對這些 來說,只要有流量,就有一定的價值,並不依靠本身的轉化贏利。二 搜尋次數多,競爭小 一般行業通稱都是國語寬泛的...

關鍵詞密度

百科名片 目錄 隱藏 什麼是增加keywords密度的最好方式 關鍵字堆砌 keyword stuffing 的定義 關鍵字堆砌 keyword stuffing 關鍵字堆砌 keyword stuffing 是指在乙個網頁中非常密集地放置關鍵字。一般說來,如果關鍵字的出現過於頻繁,就會蓋過網頁的其...