基於TextRank的關鍵詞 短語 摘要提取

2021-07-22 13:45:51 字數 966 閱讀 5417

利用計算機將大量的文字進行處理,產生簡潔、精煉內容的過程就是文字摘要,人們可通過閱讀摘要來把握文字主要內容,這不僅大大節省時間,更提高閱讀效率。但人工摘要耗時又耗力,已不能滿足日益增長的資訊需求,因此借助計算機進行文字處理的自動文摘應運而生。近年來,自動文摘、資訊檢索、資訊過濾、機器識別、等研究已成為了人們關注的熱點。

自動文摘(automatic summarization)的方法主要有兩種:extractionabstraction

目前主要方法有:

最早提出textrank的**是:

mihalcea r, tarau p. textrank: bringing order into texts[c]. association for computational linguistics, 2004.

我們先從pagerank講起。

pagerank最開始用來計算網頁的重要性。整個www可以看作一張有向圖圖,節點是網頁。如果網頁a存在到網頁b的鏈結,那麼有一條從網頁a指向網頁b的有向邊。

構造完圖後,使用下面的公式:

s(vi)是網頁i的中重要性(pr值)。d是阻尼係數,一般設定為0.85。in(vi)是存在指向網頁i的鏈結的網頁集合。out(vj)是網頁j中的鏈結存在的鏈結指向的網頁的集合。|out(vj)|是集合中元素的個數。

pagerank需要使用上面的公式多次迭代才能得到結果。初始時,可以設定每個網頁的重要性為1。上面公式等號左邊計算的結果是迭代後網頁i的pr值,等號右邊用到的pr值全是迭代前的。

1、把給定的文字t按照完整句子進行分割,即

4、根據上面公式,迭代傳播各節點的權重,直至收斂。

支援向量機.

程式步驟:

2、分詞結果資料清洗:主要包括去停用詞、去除符號字母數字等。

由於知識不夠完備,若有出錯的地方,歡迎指導,謝謝!

基於TextRank的關鍵詞提取演算法

pagerank是用來計算網頁重要性的,將每乙個網頁看作乙個節點,將網頁之間的鏈結看作是節點之間的有向邊,網頁的重要性取決於鏈結到它的網頁數量以及這些網頁的重要性。衡量網頁重要性的公式說明如下 什麼是共現關係呢?將文字進行分詞,去除停用詞或詞性篩選等之後,設定視窗長度為k,即最多只能出現k個詞,進行...

textrank提取文件關鍵詞

一 textrank演算法簡介 二 textrank實現 1 將給定輸入的文章,進行分詞,如何將文章進行分詞可以使用jieba來實現。2 對於分詞的詞語,我們可以對其詞性進行標註處理,並可以過濾掉一些停用詞 如 的 有.只保留我們需要的詞性的單詞,名詞或者動詞或形容詞。4 然後根據公式計算,最後可以...

hanlp關鍵詞提取演算法TextRank

長句子 string content 程式設計師 英文programmer 是從事程式開發 維護的專業人員。一般將程式設計師分為程式設計人員和程式編碼人員,但兩者的界限並不非常清楚,特別是在中國。軟體從業人員分為初級程式設計師 高階程式設計師 系統 分析員和專案經理四大類。把content 通過乙個...