pagerank
pagerank 通過網路浩瀚的超連結關係來確定乙個頁面的等級,把從 a 頁面到 b 頁面的鏈結解釋為 a 頁面給 b 頁面投票,google 根據 a 頁面(甚至鏈結到 a的頁面)的 等級和投票 目標的等級來決定 b 的等級。
簡單的說,乙個高等級的頁面可以使其他低等級頁面的等級提公升。
整個網際網路可以看作是一張有向圖圖,網頁是圖中的節點,網頁之間的鏈結就是圖中的邊。如果網頁 a 存在到網頁 b 的鏈結,那麼就有一條從網頁 a 指向網頁 b 的有向邊。
構造完圖後,使用下面的公式來計算網頁 i的重要性(pr值):
textrank 公式在 pagerank 公式的基礎上,為圖中的邊引入了權值的概念:
用textrank 演算法計算圖中各節點的得分時,同樣需要給圖中的節點指定任意的初值,通常都設為1。然後遞迴計算直到收斂,即圖中任意一點的誤差率小於給定的極限值時就可以達到收斂,一般該極限值取 0.0001。
此時演算法退化為 pagerank,因而把關鍵字提取演算法稱為 pagerank 也不為過。
我們把文字拆分為單詞,過濾掉停用詞(可選),並只保留指定詞性的單詞(可選),就得到了單詞的集合。假設一段文字依次由下面的單詞組成:
現在將每個單詞作為圖中的乙個節點,同乙個視窗中的任意兩個單詞對應的節點之間存在著一條邊。然後利用投票的原理,將邊看成是單詞之間的互相投票,經過不斷迭代,每個單詞的得票數都會趨於穩定。
乙個單詞的得票數越多,就認為這個單詞越重要。
使用 textrank 提取摘要
自動摘要,就是從文章中自動抽取關鍵句。人類對關鍵句的理解通常是能夠概括文章中心的句子,而機器只能模擬人類的理解,即擬定乙個權重的評分標準,給每個句子打分,之後給出排名靠前的幾個句子。
基於 textrank 的自動文摘屬於自動摘錄,通過選取文字中重要度較高的句子形成文摘。
依然使用 textrank 公式:
補充關鍵詞抽取 RAKE,LDA等
一 理論梳理 計算候選詞之間的語義相似度。根據語義相似度對候選詞進行聚類。具體方式舉例 tfidf根據每個詞在文件中的tfidf值來計算其重要性 texkrank基於圖的方法 lda則是根據文件和單詞的主題分布相似度來計算單詞的重要性。無監督的抽取方法又可細化為 利用中文分詞系統對微博進行分詞 利用...
TF IDF演算法實現關鍵詞抽取
tf idf具體演算法如下 tfidfi,j tfi,j idfi 其中tfidf i,j 是指詞i 相對於文件j的重要性值。tf i,j 指的是某個給定的詞語在指定文件中出現的次數佔比。即給定的詞語在該文件中出現的頻率。這個數字是對term count的歸一化,防止它偏向長文件。計算公式為 tf ...
jieba簡易教程 分詞 詞性標註 關鍵詞抽取
jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.支援三種分詞模式 預設是精確模式 支援繁體分詞 支援自定義詞典 mi...