NLP 03 白話glove原理

2021-10-25 05:31:33 字數 1404 閱讀 3192

glove模型是在word2vec之後提出來的訓練詞向量的模型,glove可以說是在wordvec模型基礎上改進而來的模型,所以理論上,glove訓練的詞向量的效果會更好。在應用的時候,我們可以結合glove詞向量和word2vec詞向量,不過對我們來說,理解glove是如何在wordvec基礎上改進的,才是最重要的,因為這種思想可以運用到改進其他演算法模型。

glove模型的思想方法,主要結合以下兩個演算法:

乙個是基於奇異值分解(svd)的lsa

演算法,該方法對term-document矩陣(矩陣的每個元素為tf-idf)進行奇異值分解,從而得到term的向量表示和document的向量表示。此處使用的tf-idf主要還是term的全域性統計特徵。

另乙個方法是word2vec

演算法,該演算法可以分為skip-gram 和 continuous bag-of-words(cbow)兩類,但都是基於區域性滑動視窗計算的。即,該方法利用了區域性的上下文特徵(local context)

lsa和word2vec作為兩大類方法的代表,乙個是利用了全域性特徵的矩陣分解方法,乙個是利用區域性上下文的方法。

glove模型就是將這兩種特徵合併到一起的,即使用了語料庫的全域性統計(overall statistics)特徵,也使用了區域性的上下文特徵(即滑動視窗)。為了做到這一點glove模型引入了co-occurrence probabilities matrix。要計算共現概率矩陣,我們先來計算共現矩陣,共現矩陣是單詞對共現次數的統計表。我們可以通過大量的語料文本來構建乙個共現統計矩陣。

例如,有語料如下:

i like deep learning.

i like nlp.

i enjoy flying.

以窗半徑為1來指定上下文環境,則共現矩陣就應該是:

那麼共現概率矩陣是就是每個值除於每行的和,例如對於第一行就是p(like | i)=2/(1+2)=2/3 ,也就代表著第乙個詞出現i ,第二個詞出現 like的概率為2/3。這樣依次計算我們就會得到乙個共現概率矩陣。

模型推導過程 :

白話NLP 依存句法分析

在依存句法分析中,句子中詞與詞之間存在一種二元不等價關係 主從關係。在句子中,如果乙個詞修飾另乙個詞,則稱修飾詞為從屬詞 dependent 被修飾詞成為支配詞 head 兩者之間的語法關係就是依存關係 dependency relation 如句子 小目標 中的形容詞 小 與名次 夢想 之間的關係...

天池 新聞文字分類 NLP實踐Note 03

在本章我們將開始使用機器學習模型來解決文字分類。機器學習發展比較廣,且包括多個分支,本章側重使用傳統機器學習,從下一章開始是基於深度學習的文字分類。機器學習是對能通過經驗自動改進的計算機演算法的研究。機器學習通過歷史資料訓練出模型對應於人類對經驗進行歸納的過程,機器學習利用模型對新資料進行 對應於人...