「廟小妖風大,水淺王八多」。還是這句話,這是業餘研究生的文字建模系列之二:關於plsa。前述就到此。
plsa:probabilistic latent senmantic indexing.是hoffman在2023年提出的基於概率的隱語義分析。之所以說是probabilistic,是因為這個模型中還加入了乙個隱變數:主題z ,也正因為此,它被稱之為主題模型。
在plsa中,一片文件可能有多個主題,而乙個主題對應著多個單詞的分布,以lda數學八卦一文中的描述為例,可以比較生動的闡述在plsa模型中,一篇文件是如何生成的。
因此,對於文件d中的乙個單詞w,其概率可以描述為:
對於整個語料,那麼其似然函式是:
當然,其對數的似然函式如下:
其中n(d,w)表示在文件d中,單詞w出現的次數
帶入第一式可以得到對數的似然函式是:
然後現在的問題是:如何求取p(w|z)和p(z|d).
這種隱變數的求法和之前的高斯混合分布的求法其實是一樣的,很顯然的需要em演算法來進行求導。回顧之前的em演算法,我們首先需要求取q函式的分布的期望,然後另該期望最大化。
根據jessen不等式:
變成求右邊下界的問題,需要等號成立的話,需要:
因此我們得出:
於是e步就是:
有兩個約束條件:
下面進行m步,也就是求期望最大:
使用拉格朗日乘法求:
使偏導為零可以得出結果:
這就求出了我們需要的引數。
然後就是重複迭代的過程,直至收斂。
好了,模型已經建立完畢,現在的問題是給出一篇新的文件,如何求取其文件的主題分布呢。當然最直接的想法就是,將該文件丟到語料庫中重新爬一遍,然後得出結果,當然這種耗時大一般不建議採用,**在給出了幾種方法,我覺的主要是fold-in方法比較重要:
將訓練出來的p(w|z)固定不變,在em演算法中,只有乙個文件q,通過迭代跑p(z|d),之後計算相似度
ok,這就是plsa.
求偏導可以參考
參考文獻:
[1]probabilitic latent semantic indexing.thomas hofmann .
[2]lda數學八卦.靳志輝
[3]基於plsa主題模型的文字聚類
文字建模系列之二 pLSA
廟小妖風大,水淺王八多 還是這句話,這是業餘研究生的文字建模系列之二 關於plsa。前述就到此。plsa probabilistic latent senmantic indexing.是hoffman在1999年提出的基於概率的隱語義分析。之所以說是probabilistic,是因為這個模型中還加...
hibernate系列之二
首先先介紹一下持久化 持久化 將程式資料在持久狀態和瞬時狀態間轉換的機制 即將記憶體的資料永久存在關係型資料庫中 持久化類的編寫規則 持久化類需要提供無參構造方法 持久化類的屬性需要私有,對私有的屬性提供get set方法 持久化類的屬性盡量使用包裝類的型別 持久化類要有乙個唯一標識oid與表的主鍵...
文字建模系列之一 LSA
俗話說 廟小妖風大,水淺王八多 作為一名自然語言處理的水貨研究生,通常只是對 有著一知半解的了解,然而因為畢竟人老了年紀大容易忘事,有時候還是想把這一知半解的想法用文字寫出來,以便之後回顧,看官勿噴,水貨要開始動筆了。文字建模是自然語言處理領域中很基礎的內容,而且也已經被研究了千萬遍,這個系列我主要...