bert其中的乙個重要作用是可以生成詞向量,它可以解決word2vec中無法解決的一詞多義問題。
然而bert獲取詞向量的門檻要比word2vec要高得多。筆者在這裡介紹一下如何獲取bert的詞向量。
筆者在獲取bert詞向量的時候用到了肖涵博士的bert-as-service,具體使用方式如下。
接著可以在pycharm終端寫入以下**:
from bert_serving.client import bertclient
bc = bertclient()
print(bc.encode(['中國', '美國']))
可得到詞向量為(詞向量的維度為768): 獲得Bert預訓練好的中文詞向量
安裝肖涵博士的bert as service pip install bert serving server pip install bert serving client 啟動bert as service 找到bert serving start.exe所在的資料夾 我直接用的anaconda ...
訓練中文詞向量
執行python wikiextractor.py b 5000m o extracted zhwiki latest pages articles.xml.bz2 安裝繁體轉簡體工具 sudo apt get install opencc 在extracted子目錄下執行繁體轉簡體 opencc ...
glove中文詞向量 GloVe
做自然語言處理的時候很多時候會用的word embedding,訓練詞向量的方法主要有兩條路 glove模型就是將這兩中特徵合併到一起的,即使用了語料庫的全域性統計特徵,也使用了區域性的上下文特徵。為了做到這一點glove模型引入了co occurrence probabilities matrix...