ROUGE評價方法

2021-10-05 01:51:50 字數 1768 閱讀 7300

rouge(recall-oriented understudy for gisting evaluation)由2023年chin-yew lin提出。

基本思想:

由多個專家分別生**工摘要,構成標準資料集。將系統生成的自動摘要與人工生成的標準摘要進行對比,通過統計兩者的重疊基本單元(n元語法、詞序列和詞對)的數目,來評價系統的穩定性和魯棒性。

評價標準主要有以下:

rouge-n

rouge-l

rouge-s

rouge-w

rouge-su

1.rouge-n

n-gram模型

假設句子是由詞序列w1,w2…wn組成,那麼句子出現的概率為

p=p(w1,w2…wn)=p(w1)p(w2|w1)…p(wn|w1w2…wn-1)

引入馬爾科夫假設:

乙個詞的出現僅僅依賴於它前面出現的有限個的乙個或者幾個詞。

例:s1:police killed the gunman

s2:the gunman was shot down by police

s3:police ended the gunman

s4:the gunman murdered police

s1,s2為參考摘要,s3,s4為候選摘要。

rouge-1(s3)=(3+3)/(4+7)=6/11

rouge-1(s4)=(3+3)/(4+7)=6/11

rouge-2(s3)=(1+1)/(3+6)=2/9

rouge-2(s4)=(1+1)/(3+6)=2/9

簡單來說就是匹配句子中重疊的詞的個數,以第乙個為例:

s3於s1匹配三個單詞,s3於s2匹配三個單詞,s1總共4個單詞,s2總共7個單詞,就會有上式的結果。

rouge-n中的n就是連續幾個單詞的意思

(從上面可以看出s3和s4 的句子意思完全不一樣,但是它們的得分卻相同)

2.rouge-l

rouge-l:longest common subsequence(lcs最長公共子串行)(公共子串行不要求連續匹配,只要順序對即可)

lcs:給定x,y,使得公共子串行最大的序列為二者的最長公共子串行。

r(lcs)=lcs(x,y)/m

p(lcs)=lcs(x,y)/n

f(lcs)=(1+β^2)*r(lcs)p(lcs)

/ (r(lcs)+β^2p(lcs))

在duc測評大會中,beita趨近無窮大,所以上式就相當於只考慮r(lcs)

例子:s1:police killed the gunman

s2:police ended the gunman

s3:the gunman murdered police

s1為參考摘要,s2,s3為候選摘要,取beita=1

rouge-l(s2)=3/4

rouge-l(s3)=2/4

rouge-l的優勢:

不要求詞的連續匹配,只要求按詞的順序匹配即可,能夠像n-gram一樣反映句子級的詞序。

自動匹配最長子序列,不需要預先定義n-gram的長度。

(簡化計算,直接看s1,s2中按順序排列的單詞,police,the ,gunman)總共4個單詞,結果就是3/4

機器學習評價方法

precision 的結果中 正確的正例 的結果中所有為1的值 recall 的結果中 正確的正例 真實存在的正例數 所以p r curve 對負樣本的比例不敏感 1 真陽性 true positive,tp 檢測不健康,且實際不健康 正確肯定的匹配數目 2 假陽性 false positive,f...

資訊檢索評價方法

乙個文件集 一組用於測試的資訊需求集合,資訊需求可以表示為查詢 一組相關性判定結果,對應每個查詢 文件,通常會賦予乙個二值判定結果 相關 不相關 經驗發現一般測試的查詢數應 50。對於乙個查詢,根據其返回結果可以將整個文件集劃分為4部分 相關不相關 返回真正例 tp 偽正例 fp 不返回偽反例 fn...

評價演算法效能的方法

評價效能的方法主要有以下4種 1 時間分析法。通過在演算法的參考 c c c 或m 加入時間統計函式。來實現對演算法在整個系統中所佔時間作以統計。優點 實現簡單直觀的得到演算法複雜度在整個系統複雜度中所佔的比率。缺點 只能實現演算法間的比較,不能對演算法內部的複雜度給出cycle級別或指令級別的分析...