rouge(recall-oriented understudy for gisting evaluation)由2023年chin-yew lin提出。
基本思想:
由多個專家分別生**工摘要,構成標準資料集。將系統生成的自動摘要與人工生成的標準摘要進行對比,通過統計兩者的重疊基本單元(n元語法、詞序列和詞對)的數目,來評價系統的穩定性和魯棒性。
評價標準主要有以下:
rouge-n
rouge-l
rouge-s
rouge-w
rouge-su
1.rouge-n
n-gram模型
假設句子是由詞序列w1,w2…wn組成,那麼句子出現的概率為
p=p(w1,w2…wn)=p(w1)p(w2|w1)…p(wn|w1w2…wn-1)
引入馬爾科夫假設:
乙個詞的出現僅僅依賴於它前面出現的有限個的乙個或者幾個詞。
例:s1:police killed the gunman
s2:the gunman was shot down by police
s3:police ended the gunman
s4:the gunman murdered police
s1,s2為參考摘要,s3,s4為候選摘要。
rouge-1(s3)=(3+3)/(4+7)=6/11
rouge-1(s4)=(3+3)/(4+7)=6/11
rouge-2(s3)=(1+1)/(3+6)=2/9
rouge-2(s4)=(1+1)/(3+6)=2/9
簡單來說就是匹配句子中重疊的詞的個數,以第乙個為例:
s3於s1匹配三個單詞,s3於s2匹配三個單詞,s1總共4個單詞,s2總共7個單詞,就會有上式的結果。
rouge-n中的n就是連續幾個單詞的意思
(從上面可以看出s3和s4 的句子意思完全不一樣,但是它們的得分卻相同)
2.rouge-l
rouge-l:longest common subsequence(lcs最長公共子串行)(公共子串行不要求連續匹配,只要順序對即可)
lcs:給定x,y,使得公共子串行最大的序列為二者的最長公共子串行。
r(lcs)=lcs(x,y)/m
p(lcs)=lcs(x,y)/n
f(lcs)=(1+β^2)*r(lcs)p(lcs)
/ (r(lcs)+β^2p(lcs))
在duc測評大會中,beita趨近無窮大,所以上式就相當於只考慮r(lcs)
例子:s1:police killed the gunman
s2:police ended the gunman
s3:the gunman murdered police
s1為參考摘要,s2,s3為候選摘要,取beita=1
rouge-l(s2)=3/4
rouge-l(s3)=2/4
rouge-l的優勢:
不要求詞的連續匹配,只要求按詞的順序匹配即可,能夠像n-gram一樣反映句子級的詞序。
自動匹配最長子序列,不需要預先定義n-gram的長度。
(簡化計算,直接看s1,s2中按順序排列的單詞,police,the ,gunman)總共4個單詞,結果就是3/4
機器學習評價方法
precision 的結果中 正確的正例 的結果中所有為1的值 recall 的結果中 正確的正例 真實存在的正例數 所以p r curve 對負樣本的比例不敏感 1 真陽性 true positive,tp 檢測不健康,且實際不健康 正確肯定的匹配數目 2 假陽性 false positive,f...
資訊檢索評價方法
乙個文件集 一組用於測試的資訊需求集合,資訊需求可以表示為查詢 一組相關性判定結果,對應每個查詢 文件,通常會賦予乙個二值判定結果 相關 不相關 經驗發現一般測試的查詢數應 50。對於乙個查詢,根據其返回結果可以將整個文件集劃分為4部分 相關不相關 返回真正例 tp 偽正例 fp 不返回偽反例 fn...
評價演算法效能的方法
評價效能的方法主要有以下4種 1 時間分析法。通過在演算法的參考 c c c 或m 加入時間統計函式。來實現對演算法在整個系統中所佔時間作以統計。優點 實現簡單直觀的得到演算法複雜度在整個系統複雜度中所佔的比率。缺點 只能實現演算法間的比較,不能對演算法內部的複雜度給出cycle級別或指令級別的分析...