word2vec確是挺好用的。
關於原理網上比較多。
大白話講解word2vec到底在做些什麼
word2vec是乙個最初級的入門白話講述。作為乙個感性認識的講述。
word2vec原理及實現
這篇會稍帶有模型來疏理一下;
word2vec 中的數學原理詳解
這有一系列文章,是最全面,最透徹的乙個博文講解。來龍去脈等全部基礎包括:
(一)目錄和前言
(二)預備知識
(三)背景知識
(四)基於 hierarchical softmax 的模型
(五)基於 negative sampling 的模型
(六)若干原始碼細節
word2vec原理推導與**分析
這是一篇高度總結的文章,總結的原料還是來自《word2vec 中的數學原理詳解》
總結:以下以cbow為例
word2vec更像是統計學習的一種方法。
就是求解上面這個公式最大似然函式問題;
主要思想:對於語料的目標詞,用目標詞的相鄰詞作為條件,計算相鄰詞,對於所有目標詞出現的最大化。反映詞與詞之間的位置關係,也反映了乙個語料的特徵。
對於這個詞的表示向量是來自huffman樹上的權重。
基於神經網路的語言模型,進行了進一步簡化,從結構來看,一共三層,輸入層、投影層、輸出層;輸入2c個目標詞的向量,c叫做視窗;到投影層進加累加;在輸出層,採用了二叉樹來實現多個二分類。
最後生成的向量就是二叉樹中訓練的引數。
按上面的對數似然可以看出是把所有葉節點彙總,至於彙總的概率就是從根到葉子節點乘積,對於乙個分叉點分類,這裡採用了邏輯回歸的分類方法,其實再高大上點說這裡其實是乙個神經網路。
就這樣就構成了乙個word2vec的模型,妙!!!妙!!!妙!!!
或者,我們可以這樣看待這個問題,發現問題:要挖掘語料中每個字元的特徵,例如,詞的位置關係。我們的問題域是在自然語言處理,業務上加入n-gram模型。好的,有詞有一定語法關係就可以構造成一篇有意義的文章了。這裡可以假設詞的位置關係可以決定文章的中心語義的。現在對所有詞尋找位置關係的特徵。對於目標函式就是所有詞處於乙個最優相鄰關係時,會是語料中最好的狀態。
初識nlp (2 (word2vec基礎
人工創造dict 基於統計 hmm,crf,svm one hot 1xn矩陣只有乙個元素是1,其他是0 john likes to watch movies mary likes too 1,2,1,1,1,0,0,0,1,1 或 1,1,1,1,1,0,0,0,1,1 john also lik...
徹底理解 NLP中的word2vec
首先簡單概括一下 word2vec 的思想 word2vec的目的是用指定維度的向量來表示詞庫中的每乙個詞,這些向量更利於後期進行各種nlp任務 每個詞語對應的詞向量本質上是語言模型中的一些權重引數,因此我們需要通過訓練網路的方式得到這些權重的最優值,換句話說,我們通過 未知詞的方式訓練網路,目的並...
word2vec的原理(一)
最近上了公司的新員工基礎培訓課,又對nlp重新產生的興趣。nlp的第一步大家知道的就是不停的寫正則,那個以前學的還可以就不看了。接著就是我們在把nlp的詞料在傳入神經網路之前的乙個預處理,最經典的就是2013年google提出的那個word2vec演算法,所以最近想再把這個演算法給好好學習一下,然後...