在前面提到的神經網路語言模型、c&w模型,都沒有缺少隱藏層,而模型運算的高消耗都在輸入層到隱藏層的矩陣運算中,如果能減少這部分開銷,那麼模型會更加高效。而cbow模型和skip-gram模型就屬於這一類模型。
cbow模型的思想與c&w模型的思想類似:輸入上下文詞語,**中心目標詞。
與c&w模型以優化正樣本與負樣本之間的差異不同,cbow模型仍然是以**目標詞的概率為最終目標來建模的。cbow模型在網路結構上進行了兩點簡化:
通過上面兩點的優化,減少了矩陣運算,也較少了一次層之間的運算,使得模型的效率得到了提公升。
與cbow利用上下文來**中心目標詞不同,skip-gram反過來利用中心詞來**所有上下文詞彙:
skip-gram通過優化詞向量矩陣l來最大化所有上下文的對數似然:
還有負取樣(neg)技術可以用來優化模型的訓練效率。
以skip-gram為例,通過中心詞w
iw_i
wi**上下文wc=
wi−c
...w
i−1w
i+1.
..wi
+cwc=w_...w_w_...w_
wc=wi−
c..
.wi−
1wi
+1.
..wi
+c中的任意詞w
cw_c
wc,負取樣技術是為每個正樣本w
cw_c
wc從某個概率分布pn(
w)p_n(w)
pn(w)
中任意選擇個負樣本
\,然後最大化正樣本的似然,最小化負樣本的似然來進行優化(一般來說當k選為5的時候可以取得很好的效能)。
文字表示模型
具體來說,就是將整段文字以詞為單位切分開,然後每篇文章可以表示成乙個長向量,向量中的每一維表示乙個單詞,而該維對應的權重則反應了這個詞在原文章中的重要程度.常用tf idf計算權重,公式為 t f idf t,d tf t,d idf t tf idf t,d tf t,d idf t tf idf...
文字表示模型
機器學習中的方法 詞袋模型 n gram 模型 主題模型 詞袋模型 把文字拆成乙個乙個的單詞,如果乙個單詞在非常多的文章裡面都出現 那麼可能是乙個比較通用的詞彙,對於區分某篇文章特殊i吾義的貢獻較小 3,因此對權重做一定懲罰 n gram 模型 將文章進行單詞級別的劃分離時候並不是一種好的做法,比如...
文字表示 向量空間模型
概念 文字挖掘演算法不能直接在原始文字形式上處理。因此,在預處理階段,將文字轉化為更易計算機識別的資訊,即對文字進行形式化處理。模型 向量空間模型 概率模型 概念模型 向量空間模型 1 主要步驟 1 將文字的基本語言單位 字 詞 片語 短語 抽取,組成特徵項,用tn表示 2 將tn按在文字中的重要性...