n-gram實際上是做了乙個n-1階的馬爾科夫假設。【用的方法應該是貝葉斯的概率理論】
word2vec是使用神經網路訓練的一套概率語言模型。收入的引數是詞向量。【這裡的詞向量應該是屬於那種「onehot編碼」的詞向量吧?】。
對於語料庫c裡的任意乙個詞w,將context(w)取為前面n-1個詞(類似於n-gram),而且這n-1個詞的向量是首位拼接地拼起來成為乙個長向量的【規模是(n-1)*m】
現在的二元對(context(w),w)就是乙個訓練樣本了。現在要把這個訓練樣本「經過」乙個神經網路。
訓練時: 幫助構造目標函式的輔助引數
訓練完成後: 也好像只是語言模型中的乙個副產品【我們的目標是生成語言模型】
可以看出,cbow是根據前後文推這個詞的,skip-gram是根據這個詞推前後文的。
通俗理解word2vec
參考 假設詞表中共有4萬個詞彙,現在知道第t個詞前面的n 1個詞,預估第t個詞 首先將n 1 依據詞表進行onehot編碼得到n 1個 1 4萬 的稀疏向量 只有乙個位置為1,其餘為0 然後為每乙個詞 隨機初始化乙個 1 k 維的詞向量c,這n 1個詞向量經過拼接 求和等操作得到乙個1 k維的向量,...
Word2vec淺顯的理解
本文主要讓你理解word2vec大概是個什麼事情 沒有具體原理等 先來說一下word2vec的產生,其實也和one hot編碼有關係,大家相信100維的向量最多可以表示多少個詞?one hot說,我能表示100個 但是你如果表示所有的單詞需要多少維啊.one hot就數不過來了,太多了 10的五次方...
與word2vec 原來word2vec那麼簡單
說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...