主題建模 理論理解

2022-06-18 07:15:08 字數 1761 閱讀 4135

在優秀的詞嵌入方法出現之前,潛在語義分析模型(lsa)和文件主題生成模型(lda)都是解決自然語言問題的好方法。lsa模型和lda模型有相同矩陣形式的詞袋表示輸入。不過,lsa模型專注於降維,而lda模型專注於解決主題建模問題。

在自然語言理解任務中,我們可以通過一系列的層次來提取含義——從單詞、句子、段落,再到文件。在文件層面,理解文字最有效的方式之一就是分析其主題。在文件集合中學習、識別和提取這些主題的過程被稱為主題建模。

概述

所有主題模型都基於相同的基本假設:

換句話說,主題模型圍繞著以下觀點構建:實際上,文件的語義由一些我們所忽視的隱變數或「潛」變數管理。因此,主題建模的目標就是揭示這些潛在變數——也就是主題,正是它們塑造了我們文件和語料庫的含義。這篇博文將繼續深入不同種類的主題模型,試圖建立起讀者對不同主題模型如何揭示這些潛在主題的認知。

lsa:

首先,我們用m個文件和n個詞作為模型的輸入。這樣我們就能構建乙個以文件為行、以詞為列的m*n矩陣。我們可以使用計數或tf-idf得分。然而,用tf-idf得分比計數更好,因為大部分情況下高頻並不意味著更好的分類.

該模型的挑戰是矩陣很稀疏(或維數很高),同時有雜訊(包括許多高頻詞)。因此,使用分解 svd 來降維。

svd,即奇異值分解,是線性代數中的一種技術。該技術將任意矩陣 m 分解為三個獨立矩陣的乘積:a=u*s*v,其中 s 是矩陣 m 奇異值的對角矩陣。很大程度上,截斷 svd 的降維方式是:選擇奇異值中最大的 t 個數,且只保留矩陣 u 和 v 的前 t 列。在這種情況下,t 是乙個超引數,我們可以根據想要查詢的主題數量進行選擇和調整。

svd 的思想在於找到最有價值的資訊並使用低維的t來表達這一資訊。 

lda:

lda模型,屬於無監督學習,而主題模型是其個中典型。它建立的假設在於每份文件都使用多個主題混合生成,同樣每個主題也是由多個單詞混合生成。

我不打算深入講解狄利克雷分布,不過,我們可以對其做乙個簡短的概述:即,將狄利克雷視為「分布的分布」。本質上,它回答了這樣乙個問題:「給定某種分布,我看到的實際概率分布可能是什麼樣子?」

考慮比較主題混合概率分布的相關例子。假設我們正在檢視的語料庫有著來自 3 個完全不同主題領域的文件。如果我們想對其進行建模,我們想要的分布型別將有著這樣的特徵:它在其中乙個主題上有著極高的權重,而在其他的主題上權重不大。如果我們有 3 個主題,那麼我們看到的一些具體概率分布可能會是:

如果從這個狄利克雷分布中繪製乙個隨機概率分布,並對單個主題上的較大權重進行引數化,我們可能會得到乙個與混合 x、y 或 z 非常相似的分布。我們不太可能會抽樣得到這樣乙個分布:33%的主題 a,33%的主題 b 和 33%的主題 c。

根據狄利克雷分布 dir(α),我們繪製乙個隨機樣本來表示特定文件的主題分布或主題混合。這個主題分布記為θ。我們可以基於分布從θ選擇乙個特定的主題 z。

接下來,從另乙個狄利克雷分布 dir(

JWT理論理解

json web token jwt 是為了在網路應用環境間傳遞宣告而執行的一種基於json的開放標準 rfc 7519 該token被設計為緊湊且安全的,特別適用於分布式站點的單點登入 sso 場景。jwt的宣告一般被用來在身份提供者和服務提供者間傳遞被認證的使用者身份資訊,以便於從資源伺服器獲取...

UML 小結(2) 理論理解

什麼是uml uml是統一建模語言 uml是 unified modeling language的縮寫 是用來對軟體密集系統進行視覺化建模的一種語言。uml為物件導向開發系統的產品進行說明 視覺化 和編制文件的一種標準語言。統一建模語言 uml 是非專利的第三代建模和規約語言。uml是在開發階段,說...

「千腦智力理論」理解人類新大腦皮層

計算機科學家 神經生物學家jeff hawkins提出新型框架來理解人類新大腦皮層如何運作,即 千腦智力理論 深度學習是人工智慧最新的進展,它借鑑了人類 大腦 的大概。大多數深度學習模型的架構是基於處理層的,是一種受生物大腦神經元啟發的人工神經網路。然而,神經科學家們對於智力 intelligenc...