文字糾錯學習

2021-09-27 06:53:33 字數 352 閱讀 2394

主要針對：

當前由於使用者輸入隨意及手寫輸入法易出錯等原因，錯誤串在輸入文字中佔比高達10%-15%，這也使得中文文字糾錯模組必要性凸顯。而在垂直領域中，比如平安的壽險領域，同樣會因為使用者輸入隨意、不清楚產品名稱等原因，導致使用者提問與回答存在大量的手寫及同音錯誤。

自然語言處理常見的任務包括詞法分析、句法分析、使用者意圖識別等，而要取得理想的結果，輸入資料的準確性是基本前提。一旦語言使用者對語言掌握不夠或粗心大意，從而造成用詞不當、張冠李戴等錯誤時，很容易引起「差之毫釐，謬以千里」的「蝴蝶效應」。因此，文字糾錯對nlp技術整體的效能保證起著至關重要的作用。

試著跑實驗：

沒有**

中文文字糾錯

u4e00 代表什麼意思 u9fa5 代表什麼意思？答 u4e00 u9fa5是用來判斷是不是中文的乙個條件，採用的是unicode編碼參考website 2020 9 1 最全面，精華中文糾錯待看完中文文字拼寫檢查錯誤糾正方案整理關聯pycorrector 小練習簡化 import pa...

lstm 文字糾錯工業界糾錯系統

本篇文章，主要來嘮嗑下工業界的糾錯系統怎麼設計？包括基於規則的糾錯系統簡單的英文糾錯複雜的中文糾錯基於nn的糾錯系統。當然，在成熟的工業界糾錯系統中，最好是結合規則 nn方法。好了，開始上乾貨！英文的糾錯比較簡單，其犯錯的型別不多，因此解決方案相對簡單，開發量不大。拼寫錯誤插入刪除替換...

文字預處理（4）文字糾錯

一般有兩種文字糾錯的型別首先看一下non word的拼寫錯誤，這種錯誤表示此詞彙本身在字典中不存在，比如把要求誤寫為藥求把 correction 誤拼寫為 corrction 尋找這種錯誤很簡單，例如分完詞以後找到哪個詞在詞典中不存在，那麼這個詞就可能是錯誤拼出來的的詞。操作步驟找到候選...