s(
vi)=
(1−d
)+d∑
j∈in
(vj)
1out
(vj)
s(vj
) s(v
i)=(
1−d)
+d∑j
∈in(
vj)1
out(
vj)s
(vj)
某網頁vi的得分,由兩個部分構成,其中1-d是為防止出現零值,d右邊的部分,是引用該網頁的各網頁vj的投票之和,投票值等於該網頁的打分s(vj)除以它的出度,d一般取經驗值0.85s(
vi)=
(1−d
)+d∑
j∈in
(vj)
wji∑
vk∈o
ut(v
j)wj
ks(v
j)s (v
i)=(
1−d)
+d∑j
∈in(
vj)w
ji∑v
k∈ou
t(vj
)wjk
s(vj
)實驗的對比物件為當時的最好結果,它用的是有監督方法,特徵上考慮了文件內詞頻、資料集詞頻、首次出現的相對位置和postag序列
實驗還對比了有向圖的結果,即把詞的出現順序作為出/入方向,但結果不如無向圖,且正向逆向的結果完全相等。
抽取句子時,句子為頂點,句子內存在共同的詞看成連線,把句子的相似度作為權重
由於該方法是無監督方法,對語料和計算量要求不高,且效果比較好,目前是文字摘要的主流方法之一
textrank提取文件關鍵詞
一 textrank演算法簡介 二 textrank實現 1 將給定輸入的文章,進行分詞,如何將文章進行分詞可以使用jieba來實現。2 對於分詞的詞語,我們可以對其詞性進行標註處理,並可以過濾掉一些停用詞 如 的 有.只保留我們需要的詞性的單詞,名詞或者動詞或形容詞。4 然後根據公式計算,最後可以...
文件摘要技術
一 基於特徵的方法 可以考慮如下特徵來進行文件摘要的生成,包括 文章標題 比如文章標題中出現的詞具有較高的權重 段落的位置 比如文章的首段和尾段具有較高的權重 段落的特定句子 比如段落的首句和第二句具有較高的權重 句式的型別 比如陳述句具有較高的權重,含有大標點的句子具有較高的權中等 文章中頻繁出現...
coreseek sphinx文件摘要
1.這些都可以用charset type和charset table選項為每個索引單獨配置.charset type指定文件的編碼是單位元組的 sbcs 還是utf 8的。在coreseek中,如果通過charset dictpath設定中文詞典啟動了中文分詞模式後,不僅可以使用utf 8編碼的,還...