詞向量訓練總結

2021-10-09 03:41:06 字數 347 閱讀 1445

nlp中的詞向量對比:word2vec/glove/fasttext/elmo/gpt/bert

使用pytorch實現了textcnn,textrnn,fasttext,textrcnn,bilstm_attention,dpcnn,transformer。github:chinese-text-classification-pytorch,開箱即用。

一般字會比詞效果好點,原因有幾點:1.分詞後會有長尾問題,有的詞只在資料集**現一兩次,不能學到很好的分布。2.分詞會有oov問題。3.分詞不標準,中文分詞技術還不能達到沒有錯誤。4.使用字的預訓練向量會比使用詞的容錯性好一點

DNN模型訓練詞向量原理

1詞向量 在nlp裡,最細的粒度是詞語,由詞語再組成句子,段落,文章。所以處理nlp問題時,怎麼合理的表示詞語就成了nlp領域中最先需要解決的問題。因為語言模型的輸入詞語必須是數值化的,所以必須想到一種方式將字串形式的輸入詞語轉變成數值型。由此,人們想到了用乙個向量來表示片語。在很久以前,人們常用o...

tensorflow使用預訓練詞向量

glove的檔案說明如何使用預訓練詞向量,檔案格式如下 每行為乙個單詞和其對應的詞向量,以空格分隔。glove對應的詞向量,非二進位制檔案 word2vec對應的詞向量,非二進位制檔案 embedding np.asarray embd vocab 為詞表 w tf.variable tf.cons...

DNN模型訓練詞向量原理

1詞向量 在nlp裡,最細的粒度是詞語,由詞語再組成句子,段落,文章。所以處理nlp問題時,怎麼合理的表示詞語就成了nlp領域中最先需要解決的問題。因為語言模型的輸入詞語必須是數值化的,所以必須想到一種方式將字串形式的輸入詞語轉變成數值型。由此,人們想到了用乙個向量來表示片語。在很久以前,人們常用o...