訓練中文詞向量

2022-03-05 10:42:55 字數 475 閱讀 2929

執行python wikiextractor.py -b 5000m -o extracted zhwiki-latest-pages-articles.xml.bz2

安裝繁體轉簡體工具 sudo apt-get install opencc

在extracted子目錄下執行繁體轉簡體 opencc -i wiki_00 -o zhwiki.text -c t2s.json

利用jieba分好詞

編譯word2vec工具,進入到word2vec 目錄下 執行命令make,再執行命令cd scripts && ./demo-word.sh

詞向量訓練 進入bin 資料夾下面,輸入 ./word2vec -train 輸入語料 -output 輸出檔案路徑 -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -iter 15,等待片刻即可

獲得Bert預訓練好的中文詞向量

安裝肖涵博士的bert as service pip install bert serving server pip install bert serving client 啟動bert as service 找到bert serving start.exe所在的資料夾 我直接用的anaconda ...

glove中文詞向量 GloVe

做自然語言處理的時候很多時候會用的word embedding,訓練詞向量的方法主要有兩條路 glove模型就是將這兩中特徵合併到一起的,即使用了語料庫的全域性統計特徵,也使用了區域性的上下文特徵。為了做到這一點glove模型引入了co occurrence probabilities matrix...

使用BERT獲取中文詞向量

bert其中的乙個重要作用是可以生成詞向量,它可以解決word2vec中無法解決的一詞多義問題。然而bert獲取詞向量的門檻要比word2vec要高得多。筆者在這裡介紹一下如何獲取bert的詞向量。筆者在獲取bert詞向量的時候用到了肖涵博士的bert as service,具體使用方式如下。接著可...