NLP Baidu 中文詞法分析（LAC）

lac是乙個聯合的詞法分析模型，整體性地完成中文分詞、詞性標註、專名識別任務。lac既可以認為是lexical analysis of

chinese的首字母縮寫，也可以認為是lac analyzes chinese的遞迴縮寫。

詞法分析任務的輸入是乙個字串（我們後面使用『句子』來指代它），而輸出是句子中的詞邊界和詞性、實體類別。序列標註是詞法分析的經典建模方式。我們使用基於gru的網路結構學習特徵，將學習到的特徵接入crf解碼層完成序列標註。crf解碼層本質上是將傳統crf中的線性模型換成了非線性神經網路，基於句子級別的似然概率，因而能夠更好的解決標記偏置問題。模型要點如下，具體細節請參考python/train.py**。

輸入採用one-hot方式表示，每個字以乙個id表示 one-hot序列通過字表，轉換為實向量表示的字向量序列；

字向量序列作為雙向gru的輸入，學習輸入序列的特徵表示，得到新的特性表示序列，我們堆疊了兩層雙向gru以增加學習能力；

crf以gru學習到的特徵為輸入，以標記序列為監督訊號，實現序列標註。

jiao, zhenyu and sun, shuqi and sun, ke 《chinese lexical analysis with deep bi-gru-crf network》

提取中文片語

原文從如下的txt檔案中提取中的片語。挨邊 i bi n 兒動靠著邊緣上了大路，要挨著邊兒走。動接近某數，多指年齡我六十兒了。形接近事實或事物應有的樣子你說的太不兒挨近 i j n動靠近你我點兒兩家挨得很近。挨批 i p 動受到批評或批判挨了一頓批。挨宰 i z i 口 ...

訓練中文詞向量

執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計排序排除語法型詞彙，代詞冠詞連詞等停用詞輸出詞頻最大top20，把結果存放到檔案裡源 import jieba fo open r d 三體.txt encoding ...

NLP Baidu 中文詞法分析（LAC）

提取中文片語

訓練中文詞向量

中文詞頻統計

相關推薦