為了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我舉乙個例子來說明,什麼是"余弦相似性"。
為了簡單起見,我們先從句子著手。
句子a:我喜歡看電視,不喜歡看電影。
句子b:我不喜歡看電視,也不喜歡看電影。
請問怎樣才能計算上面兩句話的相似程度?
基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。
第一步,分詞。
句子a:我/喜歡/看/電視,不/喜歡/看/電影。
句子b:我/不/喜歡/看/電視,也/不/喜歡/看/電影。
第二步,列出所有的詞。
我,喜歡,看,電視,電影,不,也。
第三步,計算詞頻。
句子a:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
句子b:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。
第四步,寫出詞頻向量。
句子a:[1, 2, 2, 1, 1, 1, 0]
句子b:[1, 2, 2, 1, 1, 2, 1]
到這裡,問題就變成了如何計算這兩個向量的相似程度。
我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, …])出發,指向不同的方向。兩條線段之間形成乙個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
以二維空間為例,上圖的a和b是兩個向量,我們要計算它們的夾角θ。餘弦定理告訴我們,可以用下面的公式求得:
假定a向量是[x1, y1],b向量是[x2, y2],那麼可以將餘弦定理改寫成下面的形式:
數學家已經證明,余弦的這種計算方法對n維向量也成立。假定a和b是兩個n維向量,a是 [a1, a2, …, an] ,b是 [b1, b2, …, bn] ,則a與b的夾角θ的余弦等於:
使用這個公式,我們就可以得到,句子a與句子b的夾角的余弦。
余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。所以,上面的句子a和句子b是很相似的,事實上它們的夾角大約為20.3度。
(3)生成兩篇文章各自的詞頻向量;
(4)計算兩個向量的余弦相似度,值越大就表示越相似。
"余弦相似度"是一種非常有用的演算法,只要是計算兩個向量的相似程度,都可以採用它。
你好! 這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器, 可以仔細閱讀這篇文章,了解一下markdown的基本語法知識。
全新的介面設計,將會帶來全新的寫作體驗;
在創作中心設定你喜愛的**高亮樣式,markdown將**片顯示選擇的高亮樣式進行展示;
全新的katex數學公式語法;
增加了支援甘特圖的mermaid語法1
功能;增加了焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定等功能,功能按鈕位於編輯區域與預覽區域中間;
增加了檢查列表功能。
撤銷:ctrl/command + z
重做:ctrl/command + y
加粗:ctrl/command + b
斜體:ctrl/command + i
無序列表:ctrl/command + shift + u
有序列表:ctrl/command + shift + o
檢查列表:ctrl/command + shift + c
插入**:ctrl/command + shift + k
插入:ctrl/command + shift + g
直接輸入1次#,並按下space後,將生成1級標題。
輸入2次#,並按下space後,將生成2級標題。
以此類推,我們支援6級標題。有助於使用toc
語法後生成乙個完美的目錄。
強調文字
強調文字
加粗文字加粗文字
標記文字
刪除文字
引用文字h2o is是液體。
210 運算結果是 1024.
帶尺寸的:
居中的:
居中並且帶尺寸的:
當然,我們為了讓使用者更加便捷,我們增加了拖拽功能。
去部落格設定頁面,選擇一款你喜歡的**片高亮樣式,下面展示同樣高亮的**片
.
// an highlighted block
var foo =
'bar'
;
專案1專案2
專案3乙個簡單的**是這麼建立的:
專案value
電腦$1600
手機$12
導管$1
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列第二列
第三列第一列文字居中
第二列文字居右
第三列文字居左
smartypants將ascii標點字元轉換為「智慧型」印刷標點html實體。例如:
type
ascii
html
single backticks
'isn't this fun?'
『isn』t this fun?』
quotes
"isn't this fun?"
「isn』t this fun?」
dashes
-- is en-dash, --- is em-dash
– is en-dash, — is em-dash
markdown
text-to-
html conversion tool
authors
john
luke
乙個具有註腳的文字。2
markdown將文字轉換為 html。
您可以使用渲染latex數學表示式 katex:
gamma公式展示 γ(n
)=(n
−1)!
∀n∈n
\gamma(n) = (n-1)!\quad\forall n\in\mathbb n
γ(n)=(
n−1)
!∀n∈
n 是通過尤拉積分
γ (z
)=∫0
∞tz−
1e−t
dt.\gamma(z) = \int_0^\infty t^e^dt\,.
γ(z)=∫
0∞t
z−1e
−tdt
.
你可以找到更多關於的資訊latex數學表示式here.可以使用uml圖表進行渲染。 mermaid. 例如下面產生的乙個序列圖::
這將產生乙個流程圖。:
我們依舊會支援flowchart的流程圖:
如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到文章匯出,生成乙個.md檔案或者.html檔案進行本地儲存。
如果你想載入一篇你寫過的.md檔案或者.html檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入,
繼續你的創作。
mermaid語法說明↩︎
註腳的解釋 ↩︎
TF IDF與余弦相似性的應用
原文 這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。...
TF IDF與余弦相似性
詞頻 term frequency,縮寫為tf 停用詞 表示對找到結果毫無幫助 必須過濾掉的詞,如 的 是 在 這一類最常用的詞 詞頻詞頻 tf 某個詞在文章中出現的次數 考慮到文章有長短之分,所以要對詞頻引數進行歸一化處理,下面是兩種歸一化的方法 1 詞頻 tf 某個詞在 文章中出 現的次數 文章...
TF IDF與余弦相似性的應用(二) 找出相似文章
為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...