TF IDF與余弦相似性的應用(二) 找出相似文章

2022-05-04 21:51:12 字數 2127 閱讀 9420

上一次,我用

tf-idf

演算法"google新聞"

在主新聞下方,還提供多條相似的新聞。

為了找出相似的文章,需要用到

"余弦相似性"(

cosine similiarity

)。下面,我舉乙個例子來說明,什麼是

"余弦相似性"。

為了簡單起見,我們先從句子著手。句子a

:我喜歡看電視,不喜歡看電影。句子b

:我不喜歡看電視,也不喜歡看電影。

請問怎樣才能計算上面兩句話的相似程度?

基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。

第一步,分詞。句子a

:我/喜歡/

看/電視,不/喜歡

/看/電影。句子b

:我/不/

喜歡/看/

電視,也/不

/喜歡/看

/電影。

第二步,列出所有的詞。

我,喜歡,看,電視,電影,不,也。

第三步,計算詞頻。句子a

:我1,喜歡2,看2

,電視1

,電影1,不1

,也0。句子

b:我1,喜歡2,看

2,電視

1,電影1,不

2,也1。

第四步,寫出詞頻向量。句子a

:[1, 2, 2, 1, 1, 1, 0] 句子b

:[1, 2, 2, 1, 1, 2, 1]

到這裡,問題就變成了如何計算這兩個向量的相似程度。

我們可以把它們想象成空間中的兩條線段,都是從原點(

[0, 0, ...]

)出發,指向不同的方向。兩條線段之間形成乙個夾角,如果夾角為

0度,意味著方向相同、線段重合;如果夾角為

90度,意味著形成直角,方向完全不相似;如果夾角為

180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

以二維空間為例,上圖的a和

b是兩個向量,我們要計算它們的夾角

θ。餘弦定理

告訴我們,可以用下面的公式求得:

假定a向量是[x1, y1],b

向量是[x2, y2]

,那麼可以將餘弦定理改寫成下面的形式:

數學家已經證明,余弦的這種計算方法對

n維向量也成立。假定a和

b是兩個

n維向量,a是

[a1, a2, ..., an] ,b

是[b1, b2, ..., bn] ,則a

與b的夾角θ

的余弦等於:

使用這個公式,我們就可以得到,句子

a與句子

b的夾角的余弦。

余弦值越接近

1,就表明夾角越接近

0度,也就是兩個向量越相似,這就叫

"余弦相似性

"所以,上面的句子

a和句子

b是很相似的,事實上它們的夾角大約為

20.3

度。由此,我們就得到了

"找出相似文章

"的一種演算法:(1

)使用tf-idf(2

20個),合併成乙個集合,計算每篇文章對於這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);(3

)生成兩篇文章各自的詞頻向量;(4

)計算兩個向量的余弦相似度,值越大就表示越相似。

"余弦相似度

"是一種非常有用的演算法,只要是計算兩個向量的相似程度,都可以採用它。

下一次,我想談談如何在詞頻統計的基礎上,自動生成一篇文章的摘要。

(完)

TF IDF與余弦相似性的應用

原文 這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。...

TF IDF與余弦相似性的應用

為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...

TF IDF與余弦相似性

詞頻 term frequency,縮寫為tf 停用詞 表示對找到結果毫無幫助 必須過濾掉的詞,如 的 是 在 這一類最常用的詞 詞頻詞頻 tf 某個詞在文章中出現的次數 考慮到文章有長短之分,所以要對詞頻引數進行歸一化處理,下面是兩種歸一化的方法 1 詞頻 tf 某個詞在 文章中出 現的次數 文章...