輸入法技術 模型選擇

2021-06-04 13:30:25 字數 648 閱讀 3913

影響輸入法體驗的原因有很多,整體來看,我理解有兩個,乙個是候選詞的質量,另乙個是整體的互動設計。

候選詞質量高,意味著使用者輸入拼音後,使用者期望的結果可以放在第一位置,提高輸入速度

如果細分一下,有3類情況:

1.輸入句子(長/短),比如,今天真是個好天氣

2.輸入詞,比如今天/天氣/我們等

3.其他情況,比如:英文、人名

我們碰到的問題,focus在1,2上面,可以把2歸在1上面,看做乙個問題,通過模型來解決。

選用的模型為bigram語言模型,3元或者更高遠可以作為雲輸入法,client-based的輸入法,考慮到記憶體,只能做到2元。

bigram語言模型就不做介紹,n-gram模型是nlp最基礎的知識,可以參照相關書籍。

模型構建的流程:

選擇訓練語料->分詞->二元counting->smoothing->pruning->model merging->testing,最後出來的就是model,通過標音程式將model標音,構建程式能識別的詞典,這樣就可以準備使用。

使用者輸入時,所謂的二元模型,將使用者輸入做了拼音切分後(後面再講),通過解碼器進行解碼,最後選擇分數做高的作為提供給使用者。

解碼器在後面介紹

模型選擇方面,沒有過多的知識,只要了解n-gram、hmm相關知識就可以。

linux 選擇輸入法

安裝五筆輸入法 yum install ibus table chinese wubi jidian.noarch 安裝拼音輸入法 找到設定 language 輸入源點加號,選漢語中文 雙擊漢語中文 勾選喜歡的,新增即可 新增五筆輸入法 終端輸入命令 安裝完成 安裝過程中遇到問題就點y 裝好後重啟一...

輸入法之模型訓練

輸入法,尤其是拼音輸入法,解決的就是一些序列標註的問題,針對給定的狀態 拼音 獲取其概率最高的隱狀態 中文 這個是乙個標準的hmm,針對hmm的解碼過程,是乙個很成熟也很完備的東西。local的計算和儲存能力都有限,我們選擇一般是二階馬爾科夫,也就是所謂的bigram model。高階對質量會有幫助...

選擇google輸入法的理由

然而google輸入法還是給了我們一些驚喜 2.英文提示 其他輸入法也許因為是國人開發的,所以對英文不太敏感?在google輸入法中先打v再 英文可以開啟提示單詞模式,相當於乙個詞霸功能了,比如不知道student怎麼打,可以打v stu,備選詞裡面會出現student。只是這樣的功能,讓人更加依賴...