呼叫「海量智慧型分詞」提供的動態鏈結庫,實現漢語自動分詞,並且搭建圖形介面用於操作和顯示。
圖形介面使用mfc搭建,新建基於對話方塊的mfc應用程式,同時要將hlssplit.lib、hlsegfunc.h、hlpubdef.h拷貝至工程目錄下,將hlssplit.dll、hlsplitword.dat拷至debug目錄下。
搭建介面如下:
「分詞」按鈕的響應函式如下:
void ctest20dlg::onbnclickedbutton2()
handle hhandle = hlopensplit (); //建立分詞句柄
if(hhandle == invalid_handle_value)
int iextracalcflag = 0; //附加計算標誌,不進行附加計算
lpcstr lptext = (lpcstr)strtext ;
bool bsuccess = hlsplitword (hhandle, lptext, iextracalcflag);
cstring strresult = "";
if(bsuccess)
hlclosesplit (hhandle) ;//關閉分詞句柄
} else
hlfreesplit () ; //解除安裝分詞詞典
setdlgitemtext(idc_edit2,strresult);
}
「載入檔案」按鈕響應函式見上篇部落格《mfc
顯示文字文件
》效果如下:
漢語自動分詞小結
中文分詞存在的問題是分詞規範 怎麼才算是乙個詞 和歧義切分 交集型歧義 結合成且為結合 成 結 合成。組合型歧義 他站 起 身 來。他明天 起身 去北京。以及未登入詞,如中文名準確率較高,外文譯名準確率很低,地名可以由詞表解決,組織機構名詞表可以解決部分。分詞方法總的分為基於詞表和基於統計和規則。正...
漢語自動分詞,主要面臨哪些困難?
1 分詞規範的問題 1 漢語詞的概念 漢語自動分詞的首要困難是詞的概念不清楚。書面漢語是字的序列,詞之間沒有間隔標記,使得詞的界定缺乏自然標準,而分詞結果是否正確需要有乙個通用 權威的分詞標準來衡量。分詞標準的問題實際上是漢語詞與語素 詞與片語的界定問題,這是漢語語法的乙個基本 長期的問題。它涉及到...
授課點評 漢語分詞技術
授課講師第一次上課,表現總體不錯,這裡只說問題吧!按照邏輯順序組織科介紹了四種分詞方法,演算法效果逐步提公升,邏輯思路問題不大。但是,作為教學課程來講,也存在較為嚴重的問題。教學的目的不僅僅是把方法解釋明白,更重要的是要培養學生的思維能力。因此,方法講清楚,僅僅算是教學方法合格,距離優秀的課程還有很...