pagerank設計之初是用於google的網頁排名的,以該公司創辦人拉里·佩奇(larry page)之姓來命名。google用它來體現網頁的相關性和重要性,在搜尋引擎優化操作中是經常被用來評估網頁優化的成效因素之一。pagerank通過網際網路中的超連結關係來確定乙個網頁的排名,其公式是通過一種投票的思想來設計的:如果我們要計算網頁a的pagerank值(以下簡稱pr值),那麼我們需要知道有哪些網頁鏈結到網頁a,也就是要首先得到網頁a的入鏈,然後通過入鏈給網頁a的投票來計算網頁a的pr值。這樣設計可以保證達到這樣乙個效果:當某些高質量的網頁指向網頁a的時候,那麼網頁a的pr值會因為這些高質量的投票而變大,而網頁a被較少網頁指向或被一些pr值較低的網頁指向的時候,a的pr值也不會很大,這樣可以合理地反映乙個網頁的質量水平。那麼根據以上思想,佩奇設計了下面的公式:
該公式中,vi表示某個網頁,vj表示鏈結到vi的網頁(即vi的入鏈),s(vi)表示網頁vi的pr值,in(vi)表示網頁vi的所有入鏈的集合,out(vj)表示網頁,d表示阻尼係數,是用來克服這個公式中「d *」後面的部分的固有缺陷用的:如果僅僅有求和的部分,那麼該公式將無法處理沒有入鏈的網頁的pr值,因為這時,根據該公式這些網頁的pr值為0,但實際情況卻不是這樣,所有加入了乙個阻尼係數來確保每個網頁都有乙個大於0的pr值,根據實驗的結果,在0.85的阻尼係數下,大約100多次迭代pr值就能收斂到乙個穩定的值,而當阻尼係數接近1時,需要的迭代次數會陡然增加很多,且排序不穩定。公式中s(vj)前面的分數指的是vj所有出鏈指向的網頁應該平分vj的pr值,這樣才算是把自己的票分給了自己鏈結到的網頁。
textrank是由pagerank改進而來,其公式有頗多相似之處,這裡給出textrank的公式:
1)把給定的文字t按照完整句子進行分割,即
4)根據上面公式,迭代傳播各節點的權重,直至收斂。
將文字中的每個句子分別看做乙個節點,如果兩個句子有相似性,那麼認為這兩個句子對應的節點之間存在一條無向有權邊。考察句子相似度的方法是下面這個公式:
公式中,si,sj分別表示兩個句子,wk表示句子中的詞,那麼分子部分的意思是同時出現在兩個句子中的同乙個詞的個數,分母是對句子中詞的個數求對數之和。分母這樣設計可以遏制較長的句子在相似度計算上的優勢。
我們可以根據以上相似度公式迴圈計算任意兩個節點之間的相似度,根據閾值去掉兩個節點之間相似度較低的邊連線,構建出節點連線圖,然後計算textrank值,最後對所有textrank值排序,選出textrank值最高的幾個節點對應的句子作為摘要
NLP關鍵詞提取
1 tf idf詞頻逆序詞頻 2 textrank 基於圖的模型,網上很多測評說它不一定強過tf idf,其實對於沒有標註資料的情況,感覺評判好壞真的很艱難。3 lda 4 word2vec 聚類 這個方法是看以為總結的,感覺具體的實施方案還是得自己實踐,不過個人覺得這個方法有點麻煩。主要流程如下 ...
NLP 關鍵詞提取演算法
一 提取關鍵字技術簡介 關鍵字提取技術一般也可以分為有監督和無監督 分別是tf idf演算法 textrank演算法和主題模型演算法 包括lsa lsi lda等 tf idf演算法 tf idf term frequency inverse document frequency,詞頻 逆文件頻次演...
NLP學習路徑(五) NLP關鍵詞提取演算法
2 tf idf演算法 無監督 tf idf演算法是一種基於統計的計算方法,常用於評估在乙個文件集中乙個詞對某份文件的重要程度。tf演算法是統計乙個詞在一篇文件 現的頻次 idf演算法是統計乙個詞在文件集的多少個文件 現,基本思想是 如果乙個詞在文件 現的次數越少,則其對文件的區分能力也就越強 要對...