關鍵詞抽取 pagerank,textrank

2022-05-06 07:45:11 字數 1277 閱讀 7432

pagerank

pagerank 通過網路浩瀚的超連結關係來確定乙個頁面的等級,把從 a 頁面到 b 頁面的鏈結解釋為 a 頁面給 b 頁面投票,google 根據 a 頁面(甚至鏈結到 a的頁面)的 等級和投票 目標的等級來決定 b 的等級。

簡單的說,乙個高等級的頁面可以使其他低等級頁面的等級提公升。

整個網際網路可以看作是一張有向圖圖,網頁是圖中的節點,網頁之間的鏈結就是圖中的邊。如果網頁 a 存在到網頁 b 的鏈結,那麼就有一條從網頁 a 指向網頁 b 的有向邊。

構造完圖後,使用下面的公式來計算網頁 i的重要性(pr值): 

textrank 公式在 pagerank 公式的基礎上,為圖中的邊引入了權值的概念:

用textrank 演算法計算圖中各節點的得分時,同樣需要給圖中的節點指定任意的初值,通常都設為1。然後遞迴計算直到收斂,即圖中任意一點的誤差率小於給定的極限值時就可以達到收斂,一般該極限值取 0.0001。

此時演算法退化為 pagerank,因而把關鍵字提取演算法稱為 pagerank 也不為過。

我們把文字拆分為單詞,過濾掉停用詞(可選),並只保留指定詞性的單詞(可選),就得到了單詞的集合。假設一段文字依次由下面的單詞組成: 

現在將每個單詞作為圖中的乙個節點,同乙個視窗中的任意兩個單詞對應的節點之間存在著一條邊。然後利用投票的原理,將邊看成是單詞之間的互相投票,經過不斷迭代,每個單詞的得票數都會趨於穩定。

乙個單詞的得票數越多,就認為這個單詞越重要。

使用 textrank 提取摘要

自動摘要,就是從文章中自動抽取關鍵句。人類對關鍵句的理解通常是能夠概括文章中心的句子,而機器只能模擬人類的理解,即擬定乙個權重的評分標準,給每個句子打分,之後給出排名靠前的幾個句子。

基於 textrank 的自動文摘屬於自動摘錄,通過選取文字中重要度較高的句子形成文摘。

依然使用 textrank 公式: 

補充關鍵詞抽取 RAKE,LDA等

一 理論梳理 計算候選詞之間的語義相似度。根據語義相似度對候選詞進行聚類。具體方式舉例 tfidf根據每個詞在文件中的tfidf值來計算其重要性 texkrank基於圖的方法 lda則是根據文件和單詞的主題分布相似度來計算單詞的重要性。無監督的抽取方法又可細化為 利用中文分詞系統對微博進行分詞 利用...

TF IDF演算法實現關鍵詞抽取

tf idf具體演算法如下 tfidfi,j tfi,j idfi 其中tfidf i,j 是指詞i 相對於文件j的重要性值。tf i,j 指的是某個給定的詞語在指定文件中出現的次數佔比。即給定的詞語在該文件中出現的頻率。這個數字是對term count的歸一化,防止它偏向長文件。計算公式為 tf ...

jieba簡易教程 分詞 詞性標註 關鍵詞抽取

jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.支援三種分詞模式 預設是精確模式 支援繁體分詞 支援自定義詞典 mi...