今天我要講的**主要參考了一篇2023年的acl會議**《learning word vectors for sentiment analysis》,這篇文章的作者有andrew y. ng,因此整個文章的質量還是***的。我剛看到這篇**的時候,就感到有點奇怪,因為目前業界用的最廣泛的word2vec演算法是2023年才提出來的,而這篇*****發表的時間是2023年,當仔細讀了這篇*****之後,就會發現這篇文章用到的方法是貝葉斯流派和神經神經網路派的乙個折中方法。(因為這篇*****的提出是參考了lda模型的一些思想的)
lda模型假設一篇文件可以按照一定的分布對應一系列的topic k (潛在topic的數量是乙個需要提前設定的超引數),乙個topic可以按照一定的分布對應整個語料庫中所有的詞語,明顯看出這個理論是基於貝葉斯流派的。然而如作者所說lda所強調的是對topic和詞語之間的關係進行建模,不是直接對word詞義進行建模,因此這種體系下生成的word所對應的topic向量其實並不是特別有助於對詞語含義進行表達的。這篇*****為了解決lda在語言建模方面的一些缺憾,提出了不再單獨對每乙個topic進行建模,不再單獨考慮一篇文件中的乙個詞語究竟是從哪乙個單獨的topic生成的,而是直接認為一篇文件中的詞語是基於mix topic資訊生成的,這個mix topic資訊使用
θ θ
進行表徵。那麼對於文件d的語言模型形式如下所示: p(
d)=∫
p(d,
θ)dθ
=∫p(
θ)∏n
i=1p
(wi|
θ)dθ
p (d
)=∫p
(d,θ
)dθ=
∫p(θ
)∏i=
1np(
wi|θ
)d
θ(1) 在對p
(wi|
θ)p (w
i|θ)
進行建模的時候,使用不是統計的方法,而是類似神經網路模型的方法,假設詞典r的維度為r∈
rβ∗|
v|r ∈r
β∗|v
|,其中
β β
代表了詞向量的維度,v代表了詞典的大小,
θ θ
代表了某一主題的向量形式,那麼p(
wi|θ
)=ex
p(θt
sw)∑
)w『∈
vexp
(θts
w『) p(w
i|θ)
=exp
(θts
w)∑)
w『∈v
exp(
θtsw
『)
,其中v代表了詞典中的所有詞語。然後我們把p(
wi|θ
)=ex
p(θt
sw)∑
)w『∈
vexp
(θts
w『) p(w
i|θ)
=exp
(θts
w)∑)
w『∈v
exp(
θtsw
『)
代入(1)式,接下來的目標就是最大化這個式子,從而進行引數的估計。
使用map方法對\theta進行估計,我們可以把原始優化式子轉換成如下的形式: ma
xr=∏
dk∈d
p(θk
)∏nk
i=1p
(wi|
r)m ax
r=∏d
k∈dp
(θk)
∏i=1
nkp(
wi|r
),為了增加模型的泛化能力我們這裡加入正則項,公式如下所示: v|
|r||
2f+∑
dk∈d
(λ||
θk||
22+∑
nki=
1log
p(wi
|θk)
) v||
r||f
2+∑d
k∈d(
λ||θ
k||2
2+∑i
=1nk
logp
(wi|
θk))
其實上式只是對一般語言模型進行建模,並沒有在語言模型中引入情感資訊,既然要在生成的詞向量中引入情感資訊,那麼肯定要在訓練的時候使用label資料。這裡他使用了乙個簡單的前提假設,乙個被標記為正向的文件中所有的詞語都是正向的(雖然聽起來不太靠譜,但是細想,如果文件數量大了以後,這貌似也是成立的)。然後使用了最簡單的logistic regression方法來對乙個詞語的情感資訊進行**,logistic regression模型引數隨著整體模型一起進行訓練,p(
s=1|
wi)=
σ(wi
.φw)
p (s
=1|w
i)=σ
(wi.
φw
),然後模型的整體目標就是簡單的情感分類log損失函式ma
xr∑|
d|k=
1∑nk
i=1l
ogp(
sk|w
i)m ax
r∑k=
1|d|
∑i=1
nklo
gp(s
k|wi
)。
那麼最終整體的損失函式就是兩者相加即為: v|
|r||
2f+∑
dk∈d
(λ||
θk||
22+∑
i=1n
klog
p(wi
|θk)
)+∑k
=1|d
|∑i=
1nkl
ogp(
sk|w
i)v ||
r||f
2+∑d
k∈d(
λ||θ
k||2
2+∑i
=1nk
logp
(wi|
θk))
+∑k=
1|d|
∑i=1
nklo
gp(s
k|wi
)其實從現在來看這個思想是非常簡單的,總結這篇*****的原因也是這篇*****是貝葉斯流派和神經網路流派的乙個比較好的中間結合體,更有助於我加深對語言模型的理解和認識。
曖昧是一種什麼樣的情感
曖昧是一種什麼樣的情感?曖昧是,你會常常在msn等他上線,每當他幾天沒上線,你會開始擔心。曖昧是,你會不時去留意他的info看看有沒有更新,且留意字裡行間,他對你有沒有什麼暗示。曖昧是,有感覺,然而,這種感覺不足以叫你們切切實實的發展一段正式 的關係。曖昧是,明白人生有太多無奈,現實有太多限制,知道...
向量線的一種柵格化演算法
2.實現 3.參考 將一條線段柵格化的最簡單的演算法思路是根據其斜率,按x或y方向步進取值 除此之外還有一種演算法是利用計算機圖形學中繪製直線的bresenham演算法,這種演算法的效率很高,原理就是用遍歷的辦法規避乘法和除法,只用加減法就能完成線段的柵格化。上述兩種演算法有個問題就是都要經過一系列...
TF IDF 文字的一種向量表示
tf idf是term frequency inverse document frequency的簡稱。她是一種非常常見的用於將文字轉化為有意義的數字表示的演算法。這個技術被廣泛的應用與nlp的各個方面。本文將會介紹怎樣計算和應用tf idf。為了將機器學習演算法或統計技術應用到任何形式的文字上,應...