TextRank文件摘要

2021-08-21 02:42:57 字數 800 閱讀 7432

s(

vi)=

(1−d

)+d∑

j∈in

(vj)

1out

(vj)

s(vj

) s(v

i)=(

1−d)

+d∑j

∈in(

vj)1

out(

vj)s

(vj)

某網頁vi的得分,由兩個部分構成,其中1-d是為防止出現零值,d右邊的部分,是引用該網頁的各網頁vj的投票之和,投票值等於該網頁的打分s(vj)除以它的出度,d一般取經驗值0.85s(

vi)=

(1−d

)+d∑

j∈in

(vj)

wji∑

vk∈o

ut(v

j)wj

ks(v

j)s (v

i)=(

1−d)

+d∑j

∈in(

vj)w

ji∑v

k∈ou

t(vj

)wjk

s(vj

)實驗的對比物件為當時的最好結果,它用的是有監督方法,特徵上考慮了文件內詞頻、資料集詞頻、首次出現的相對位置和postag序列

實驗還對比了有向圖的結果,即把詞的出現順序作為出/入方向,但結果不如無向圖,且正向逆向的結果完全相等。

抽取句子時,句子為頂點,句子內存在共同的詞看成連線,把句子的相似度作為權重

由於該方法是無監督方法,對語料和計算量要求不高,且效果比較好,目前是文字摘要的主流方法之一

textrank提取文件關鍵詞

一 textrank演算法簡介 二 textrank實現 1 將給定輸入的文章,進行分詞,如何將文章進行分詞可以使用jieba來實現。2 對於分詞的詞語,我們可以對其詞性進行標註處理,並可以過濾掉一些停用詞 如 的 有.只保留我們需要的詞性的單詞,名詞或者動詞或形容詞。4 然後根據公式計算,最後可以...

文件摘要技術

一 基於特徵的方法 可以考慮如下特徵來進行文件摘要的生成,包括 文章標題 比如文章標題中出現的詞具有較高的權重 段落的位置 比如文章的首段和尾段具有較高的權重 段落的特定句子 比如段落的首句和第二句具有較高的權重 句式的型別 比如陳述句具有較高的權重,含有大標點的句子具有較高的權中等 文章中頻繁出現...

coreseek sphinx文件摘要

1.這些都可以用charset type和charset table選項為每個索引單獨配置.charset type指定文件的編碼是單位元組的 sbcs 還是utf 8的。在coreseek中,如果通過charset dictpath設定中文詞典啟動了中文分詞模式後,不僅可以使用utf 8編碼的,還...