字的向量表示

2021-12-29 19:54:56 字數 395 閱讀 8661

得到乙個字的向量表示,能夠保留字之間共現次數相關的資訊。

先得到乙個語料庫的詞庫,然後計算乙個字左邊視窗內和其共同出現的次數的數量,值與距離相反。每個字會對映到乙個整數index,這個index就對映到向量的index。

比如『these』 對映到index 10,則在 are 這個字的向量表示裡vec[10]就代表these出現在are的左邊的「次數」(在統計時,每發現一次vec[10]就增加 1/distance, distance是these和are的距離)。

這樣得到的矩陣是乙個堆成矩陣,即these出現在are的左邊和are出現在these的右邊的次數相同。

然後用這個矩陣來訓練glove模型,得到乙個檔案,一行代表乙個字的向量表示,且用空白分開,一行中的第乙個欄位為具體的字,之後是這個字的向量表示。

詞向量表示

介紹 lsa是基於滑動視窗的共現矩陣 co occurence 以及svd的方法,通過svd來對共現矩陣進行降維,從而獲得低維度的詞向量。實現 假設window長度為1 語料庫中包含三個句子 i like deep learning.i like nlp.i enjoy flying.通過滑動視窗可...

基本演算法練習 向量表示

問題描述 屬於乙個偏向資料結構的問題,即統計重複的鍵的個數。演算法如下 include include include include using namespace std int main else map iterator it if it ss.find s ss.end else if p...

05詞向量表示理論篇

語料庫 李杏 喜歡 喝 奶茶 詩雅 也 喜歡 喝 奶茶 李杏 同樣 喜歡 喝 果汁 詞典 one hot 表示 李杏 1,0,0,0,0,0,0,0 喜歡 0,1,0,0,0,0,0,0 果汁 0,0,0,0,0,0,0,1 注意 詞典包含8個單詞,每個單詞有唯一索引 在詞典中的順序和在句子中的順序...