輸入法之核心詞典構建

2021-09-07 11:43:35 字數 584 閱讀 8389

拼音輸入法輸出的候選分成兩個部分,系統詞以及短句(智慧型組詞),智慧型組詞是通過model以及解碼弄出來的,興許再說。

系統詞就是那些經常使用的詞(片語)收錄到詞典中,使用者的輸入和詞典中的詞match時,直接吐出來,而不須要解碼獲得。

系統詞以及相應的rank(score)對輸入法的體驗非常大,畢竟大多數使用者還是繼續短詞輸入。

系統詞包括幾個部分:

1.基礎詞

2.高頻短串

3.細胞詞庫

當中基礎詞的比較複雜,也沒有統一的方法。

一般的做法是:

1.對訓練語料進行分詞,然後取top 20-50w的詞作為基礎詞,假設有知識庫等分類的詞典,能夠依照類別。比方電商等能夠引入一些詞

2.獲取第三方的核心詞典。將大家都有的,或者基於一定的規範。選擇出來。作為核心詞典。

這個非常重要,可是基本上高頻的都能被cover住,而中低頻的就看產品需求了。

針對高頻短串。比方「去**」等等,沒有必要通過智慧型組詞來解決。智慧型組詞畢竟是有錯誤率的。

同一時候。加到核心詞庫裡面後。在展現上比較方便控制。

畢竟智慧型組詞一版智慧型選乙個最好的。而系統詞能夠有多個。「去**」去那裡「

輸入法之模型訓練

輸入法,尤其是拼音輸入法,解決的就是一些序列標註的問題,針對給定的狀態 拼音 獲取其概率最高的隱狀態 中文 這個是乙個標準的hmm,針對hmm的解碼過程,是乙個很成熟也很完備的東西。local的計算和儲存能力都有限,我們選擇一般是二階馬爾科夫,也就是所謂的bigram model。高階對質量會有幫助...

輸入法控制

unit u ime inte ce implementation uses windows,forms,imm,sysutils,messages varstmpclassname,stmpime string 失去焦點時的控制項名稱和輸入法名稱 msghandle hhook 0 判斷當前類名是...

輸入法鉤子

分為1個dll工程和1個win32空工程。新建乙個dll空工程,字符集使用多位元組字符集。以下是源 shurufa.h ifndef shurufa h define shurufa h include include include include pragma comment lib,imm32...