餵給Word2Vec資料長什麼樣子

2021-09-28 11:19:30 字數 1037 閱讀 1677

學習演算法,最重要的是對python中各種資料結構的了解。因為在學習各種模型的過程中,我們餵給模型的資料到底長什麼樣子,出來的又是什麼樣子,只有做到心中有數,才能更好的寫出相應的**,更好的了解模型的內涵。

對於word2vec這種詞嵌入(embding)模型,有兩種喂資料的方式

1、下面這是乙個txt檔案,注意,這個檔案是以空格的方式分詞的,其中的標點符號是中文的,因為沒有去除停用詞,所以不要誤會成以英文逗號分隔的。

讀入並餵給word2vec的**如下

from gensim.models import word2vec

imp=r'c:\users\shawnlisong\desktop\aaaaa\bbb.txt'

sentence=word2vec.linesentence(imp)

model2=word2vec.word2vec(sentence,sg=1,min_count=1)

很簡單,我們主要是用到了乙個linesentence函式,這個函式可以直接讀取txt檔案,並轉換成可以餵給word2vec模型。

至於上面的txt是怎麼寫入呢,很簡單的**,如下

dataframe=pd.read_csv(r'c:\users\shawnlisong\desktop\aaaaa\aaaa.csv',encoding='gbk')

dataframe['bbb'].to_csv(r'c:\users\shawnlisong\desktop\aaaaa\bbb.txt',index=false)

2、

資料結構為

sentence=[['我','愛','打','籃球'],['dog','喜歡','去','公園','玩耍']]

**執行如下

與word2vec 原來word2vec那麼簡單

說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...

word2vec學習參考

最近看nlp的東西比較多。就拿現在google 基於神經網路做的 word2vec 作為部落格的開始吧,今後會陸陸續續補充內容。基本是分4塊內容 1.神經網路語言模型 2.語言模型分層優化 3.word2vec 原理 4.google word2vec 看一點寫一點,先扔些參考資料鏈接上去。附上在研...

Word2Vec知識總結

word2vec是乙個產生詞向量的模型,是乙個雙層的神經網路 非常善於找出詞彙的相似度,同時可用於處理之前的技術 像one hot編碼和wordnet 處理不了的語義關係。它可以利用神經網路從大量的無標註的文字中提取有用資訊。我們也可以將它看成是乙個工具,它裡面包含了三種重要的模型 1 nnlm 神...