漢語自動分詞小結

2021-08-25 04:22:02 字數 619 閱讀 7934

中文分詞存在的問題是分詞規範（怎麼才算是乙個詞）和歧義切分（交集型歧義：結合成且為結合|成、結|合成。組合型歧義：他站|起|身|來。他明天|起身|去北京。），以及未登入詞，如中文名準確率較高，外文譯名準確率很低，地名可以由詞表解決，組織機構名詞表可以解決部分。

分詞方法總的分為基於詞表和基於統計和規則。

正向最大匹配、逆向最大匹配法、雙向掃瞄、逐詞遍曆法都是基於詞表的。基於詞表可以解決普通詞彙分詞問題，此外可以針對歧義切分，有n-最短路徑（先基於詞表粗分，由詞構有向無環圖，dijkstra貪心找最短路徑，包含最優詞序）、

hmm隱馬爾科夫（初始狀態（詞性）概率矩陣、狀態轉移矩陣（詞性到詞性）、從狀態（詞性）觀察到輸出符號（單詞）的概率矩陣）、基於三元統計模型的分詞、字構詞。

未登入詞有兩類：新詞或專業術語詞（先詞表，後人工）

實體名詞和專有名詞。這一類詞的詞次佔8.7%,引起錯誤分詞佔59.2%,這類詞是這機器翻譯、資訊檢索、文字分類和資訊提取的關鍵問題。主要專有名詞問題和效果順序：外國譯名、中國人名、地名、組織機構名。解決方法：基於規則（專有名詞庫和人工歸納規則）和機器學習（基於hmm、最大熵、錯誤驅動）。

基於多特徵的命名實體識別模型由詞形上下文模型p（wc）、詞性上下文模型p(tc)、實體詞形模型、實體詞性模型。

漢語自動分詞

呼叫海量智慧型分詞提供的動態鏈結庫，實現漢語自動分詞，並且搭建圖形介面用於操作和顯示。圖形介面使用mfc搭建，新建基於對話方塊的mfc應用程式，同時要將hlssplit.lib hlsegfunc.h hlpubdef.h拷貝至工程目錄下，將hlssplit.dll hlsplitword.da...

漢語自動分詞，主要面臨哪些困難？

1 分詞規範的問題 1 漢語詞的概念漢語自動分詞的首要困難是詞的概念不清楚。書面漢語是字的序列,詞之間沒有間隔標記,使得詞的界定缺乏自然標準，而分詞結果是否正確需要有乙個通用權威的分詞標準來衡量。分詞標準的問題實際上是漢語詞與語素詞與片語的界定問題，這是漢語語法的乙個基本長期的問題。它涉及到...

授課點評漢語分詞技術

授課講師第一次上課，表現總體不錯，這裡只說問題吧！按照邏輯順序組織科介紹了四種分詞方法，演算法效果逐步提公升，邏輯思路問題不大。但是，作為教學課程來講，也存在較為嚴重的問題。教學的目的不僅僅是把方法解釋明白，更重要的是要培養學生的思維能力。因此，方法講清楚，僅僅算是教學方法合格，距離優秀的課程還有很...