lac是乙個聯合的詞法分析模型,整體性地完成中文分詞、詞性標註、專名識別任務。lac既可以認為是lexical analysis ofchinese的首字母縮寫,也可以認為是lac analyzes chinese的遞迴縮寫。
詞法分析任務的輸入是乙個字串(我們後面使用『句子』來指代它),而輸出是句子中的詞邊界和詞性、實體類別。序列標註是詞法分析的經典建模方式。我們使用基於gru的網路結構學習特徵,將學習到的特徵接入crf解碼層完成序列標註。crf解碼層本質上是將傳統crf中的線性模型換成了非線性神經網路,基於句子級別的似然概率,因而能夠更好的解決標記偏置問題。模型要點如下,具體細節請參考python/train.py**。jiao, zhenyu and sun, shuqi and sun, ke 《chinese lexical analysis with deep bi-gru-crf network》輸入採用one-hot方式表示,每個字以乙個id表示 one-hot序列通過字表,轉換為實向量表示的字向量序列;
字向量序列作為雙向gru的輸入,學習輸入序列的特徵表示,得到新的特性表示序列,我們堆疊了兩層雙向gru以增加學習能力;
crf以gru學習到的特徵為輸入,以標記序列為監督訊號,實現序列標註。
提取中文片語
原文從如下的txt檔案中提取 中的片語。挨邊 i bi n 兒 動靠著邊緣 上了大路,要挨著邊兒走。動接近 某數,多指年齡 我六十 兒了。形接近事實或事物應有的樣子 你說的太不 兒 挨近 i j n動靠近 你 我 點兒 兩家挨得很近。挨批 i p 動受到批評或批判 挨了一頓批。挨宰 i z i 口 ...
訓練中文詞向量
執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...