自然語言處理(三) 主題模型

2022-06-23 07:00:13 字數 932 閱讀 9105

什麼是lda?(latent dirichlet allocation)

什麼是貝葉斯模型?(事件θ和y同時發生的概率=θ發生的概率*在θ發生的情況下y發生的概率=y發生的概率*在y發生的情況下θ發生的概率)

要想理解lda,分為以下五個步驟:

(1)gamma函式

看完這三篇,基本上對gamma函式就有所了解了

然後直接貼出它的公式吧:

(2)二項分布、多項分布、beta分布、dirichlet分布

概率密度函式:描述隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。而隨機變數的取值落在某個區域之內的概率

則為概率密度函式在這個區域上的積分。當概率密度函式存在的時候,累積分布函式是概率密度函式的積分。概率密度函式一般以小寫標記。

分布函式:隨機變數最重要的概率特徵,分布函式可以完整地描述隨機變數的統計規律,並且決定隨機變數的一切其他概率特徵。分布函式一般以大寫標記。

在貝葉斯統計

中,如果

後驗分布

與先驗分布

屬於同類,則先驗分布與後驗分布被稱為

共軛分布

,而先驗分布被稱為似然函式的

共軛先驗

這裡其中p(y),p(y|x)叫作y的先驗概率,後驗概率,p(x|y)稱為「似然」,p(x)稱為x的邊際概率;

這一篇都掌握多少知識呀,暫時寫不動了,先擺在這把。

自然語言處理 資訊模型

今天拜讀了數學之美的第一章,例舉的例子感覺真是淺顯易懂,這裡不禁要對吳軍老師的寫作功底拜服,下面談談對資訊模型的理解,數字 文字和語言作為資訊的載體,他們的目的都是記錄和傳播資訊,就像我們的老祖先一樣烏拉烏拉幾句,對方就明白了,你丫的罵我,拿起石頭就扔過去了,其實他們的這種交流可以概括為 資訊1 編...

自然語言處理 序列模型

本文主要寫些關於常見序列模型的一些理解,主要是為了記錄一下,自己對這幾個模型的理解還遠遠不夠。馬爾可夫性是指當前狀態t 只和前一狀態t 1相關 一階 和之前t 2之前的就不相關,這個也算是n gram語言模型吧,都是為了控制模型複雜度 一方面模型過於複雜,資料集不夠會導致模型達不到收斂 另外一方面模...

自然語言處理(N gram語言模型)

n gram語言模型 問題描述 由於公司業務產品中,需要使用者自己填寫公司名稱,而這個公司名稱存在大量的亂填現象,因此需要對其做一些歸一化的問題。在這基礎上,能延伸出乙個 使用者填寫的公司名是否有效的模型出來。目標 問題提出來了,就是想找到一種辦法來 使用者填寫的公司名是否有效?問題分析 要想 使用...