由於中文分詞還沒有形成乙個公認的分詞標準,服務於不同目的的分詞系統會對分詞單位有不同的要求,進而導致同一文字可能被不同的人劃分為幾種不同的分詞結果。為了能夠對各類分詞系統進行公正的評價,可以使用一種柔性的評測方案[1],而不是使用閉集測試方法的準確率,召回率等完全匹配的評測指標。具體的,我們首先將分詞工具**的分詞結果劃分為四種情況:
將各個分詞工具的分詞結果和標準集進行對比,並統計標準集中詞語的被**情況,得到上述四種情況的佔比。評測過程以自動評測為主,主要分析各分詞工具的衝突佔比以及一致性佔比,衝突比例表示分詞工具的錯誤率,一致性比例表示分詞工具和標準集定義的分詞粒度一致性。此外,還可以採用人工評測為輔,人工評測主要是對「拆分」「合併」結果進行分析,人工評測部分拆分合併結果,會發現拆分合併的情況主要是由於粒度定義不同導致,而非「硬錯誤」,所以這兩種情況的佔比並不是關注的重點。
[1] 楊爾弘, 方瑩, 劉冬明等. 漢語自動分詞和詞性標註評測[j]. 中文資訊學報, 2006, 20(1): 46-51.
中文分詞評價指標
準確率 precision 和召回率 recall precision 正確切分出的詞的數目 切分出的詞的總數 recall 正確切分出的詞的數目 應切分出的詞的總數 綜合性能指標f measure f 2 1 precision recall 2 precision recall 為權重因子,如果...
SolrCloud學習(二)中文分詞
中文分詞 solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff u1。第一步 新增ikanalyzer的jar包至lib環境,操作如下 cp ikanalyzer2012ff u1.jar...
文字蘊含日記1 中文分詞
1 什麼是分詞 分詞是指將連續的字序列按照一定的規範重新組合成詞序列的過程。簡而言之,就是將乙個句子中的字重新劃分組合成詞。2 為什麼要強調中文分詞技術 之所以特地強調中文分詞,是因為中文在行文上的特殊性。以英文為代表的拉丁語系語言,英文以空格作為天然的分隔符,而中文詞語之間沒有分隔。古代漢語中除了...