自然語言處理（三）主題模型

什麼是lda？(latent dirichlet allocation)

什麼是貝葉斯模型？（事件θ和y同時發生的概率=θ發生的概率*在θ發生的情況下y發生的概率=y發生的概率*在y發生的情況下θ發生的概率）

要想理解lda，分為以下五個步驟：

（1）gamma函式

看完這三篇，基本上對gamma函式就有所了解了

然後直接貼出它的公式吧：

（2）二項分布、多項分布、beta分布、dirichlet分布

概率密度函式：描述隨機變數的輸出值，在某個確定的取值點附近的可能性的函式。而隨機變數的取值落在某個區域之內的概率

則為概率密度函式在這個區域上的積分。當概率密度函式存在的時候，累積分布函式是概率密度函式的積分。概率密度函式一般以小寫標記。

分布函式：隨機變數最重要的概率特徵，分布函式可以完整地描述隨機變數的統計規律，並且決定隨機變數的一切其他概率特徵。分布函式一般以大寫標記。

在貝葉斯統計

中，如果

後驗分布

與先驗分布

屬於同類，則先驗分布與後驗分布被稱為

共軛分布

，而先驗分布被稱為似然函式的

共軛先驗

這裡其中p(y)，p(y|x)叫作y的先驗概率，後驗概率，p(x|y)稱為「似然」，p(x)稱為x的邊際概率；

這一篇都掌握多少知識呀，暫時寫不動了，先擺在這把。

自然語言處理資訊模型

今天拜讀了數學之美的第一章，例舉的例子感覺真是淺顯易懂，這裡不禁要對吳軍老師的寫作功底拜服，下面談談對資訊模型的理解，數字文字和語言作為資訊的載體，他們的目的都是記錄和傳播資訊，就像我們的老祖先一樣烏拉烏拉幾句，對方就明白了，你丫的罵我，拿起石頭就扔過去了，其實他們的這種交流可以概括為資訊1 編...

自然語言處理序列模型

本文主要寫些關於常見序列模型的一些理解，主要是為了記錄一下，自己對這幾個模型的理解還遠遠不夠。馬爾可夫性是指當前狀態t 只和前一狀態t 1相關一階和之前t 2之前的就不相關，這個也算是n gram語言模型吧，都是為了控制模型複雜度一方面模型過於複雜，資料集不夠會導致模型達不到收斂另外一方面模...

自然語言處理（N gram語言模型）

n gram語言模型問題描述由於公司業務產品中，需要使用者自己填寫公司名稱，而這個公司名稱存在大量的亂填現象，因此需要對其做一些歸一化的問題。在這基礎上，能延伸出乙個使用者填寫的公司名是否有效的模型出來。目標問題提出來了，就是想找到一種辦法來使用者填寫的公司名是否有效？問題分析要想使用...

自然語言處理（三） 主題模型

自然語言處理 資訊模型

自然語言處理 序列模型

自然語言處理（N gram語言模型）

相關推薦

自然語言處理（三）主題模型

自然語言處理資訊模型

自然語言處理序列模型