中文分詞存在的問題是分詞規範(怎麼才算是乙個詞)和歧義切分(交集型歧義:結合成且為結合|成、結|合成。組合型歧義:他站|起|身|來。他明天|起身|去北京。),以及未登入詞,如中文名準確率較高,外文譯名準確率很低,地名可以由詞表解決,組織機構名詞表可以解決部分。
分詞方法總的分為基於詞表和基於統計和規則。
正向最大匹配、逆向最大匹配法、雙向掃瞄、逐詞遍曆法都是基於詞表的。基於詞表可以解決普通詞彙分詞問題,此外可以針對歧義切分,有n-最短路徑(先基於詞表粗分,由詞構有向無環圖,dijkstra貪心找最短路徑,包含最優詞序)、
hmm隱馬爾科夫(初始狀態(詞性)概率矩陣、狀態轉移矩陣(詞性到詞性)、從狀態(詞性)觀察到輸出符號(單詞)的概率矩陣)、基於三元統計模型的分詞、字構詞。
未登入詞有兩類:新詞或專業術語詞(先詞表,後人工)
實體名詞和專有名詞。這一類詞的詞次佔8.7%,引起錯誤分詞佔59.2%,這類詞是這機器翻譯、資訊檢索、文字分類和資訊提取的關鍵問題。主要專有名詞問題和效果順序:外國譯名、中國人名、地名、組織機構名。解決方法:基於規則(專有名詞庫和人工歸納規則)和機器學習(基於hmm、最大熵、錯誤驅動)。
基於多特徵的命名實體識別模型由詞形上下文模型p(wc)、詞性上下文模型p(tc)、實體詞形模型、實體詞性模型。
漢語自動分詞
呼叫 海量智慧型分詞 提供的動態鏈結庫,實現漢語自動分詞,並且搭建圖形介面用於操作和顯示。圖形介面使用mfc搭建,新建基於對話方塊的mfc應用程式,同時要將hlssplit.lib hlsegfunc.h hlpubdef.h拷貝至工程目錄下,將hlssplit.dll hlsplitword.da...
漢語自動分詞,主要面臨哪些困難?
1 分詞規範的問題 1 漢語詞的概念 漢語自動分詞的首要困難是詞的概念不清楚。書面漢語是字的序列,詞之間沒有間隔標記,使得詞的界定缺乏自然標準,而分詞結果是否正確需要有乙個通用 權威的分詞標準來衡量。分詞標準的問題實際上是漢語詞與語素 詞與片語的界定問題,這是漢語語法的乙個基本 長期的問題。它涉及到...
授課點評 漢語分詞技術
授課講師第一次上課,表現總體不錯,這裡只說問題吧!按照邏輯順序組織科介紹了四種分詞方法,演算法效果逐步提公升,邏輯思路問題不大。但是,作為教學課程來講,也存在較為嚴重的問題。教學的目的不僅僅是把方法解釋明白,更重要的是要培養學生的思維能力。因此,方法講清楚,僅僅算是教學方法合格,距離優秀的課程還有很...