什麼是lda?(latent dirichlet allocation)
什麼是貝葉斯模型?(事件θ和y同時發生的概率=θ發生的概率*在θ發生的情況下y發生的概率=y發生的概率*在y發生的情況下θ發生的概率)
要想理解lda,分為以下五個步驟:
(1)gamma函式
看完這三篇,基本上對gamma函式就有所了解了
然後直接貼出它的公式吧:
(2)二項分布、多項分布、beta分布、dirichlet分布
概率密度函式:描述隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。而隨機變數的取值落在某個區域之內的概率
則為概率密度函式在這個區域上的積分。當概率密度函式存在的時候,累積分布函式是概率密度函式的積分。概率密度函式一般以小寫標記。
分布函式:隨機變數最重要的概率特徵,分布函式可以完整地描述隨機變數的統計規律,並且決定隨機變數的一切其他概率特徵。分布函式一般以大寫標記。
在貝葉斯統計
中,如果
後驗分布
與先驗分布
屬於同類,則先驗分布與後驗分布被稱為
共軛分布
,而先驗分布被稱為似然函式的
共軛先驗
這裡其中p(y),p(y|x)叫作y的先驗概率,後驗概率,p(x|y)稱為「似然」,p(x)稱為x的邊際概率;
這一篇都掌握多少知識呀,暫時寫不動了,先擺在這把。
自然語言處理 資訊模型
今天拜讀了數學之美的第一章,例舉的例子感覺真是淺顯易懂,這裡不禁要對吳軍老師的寫作功底拜服,下面談談對資訊模型的理解,數字 文字和語言作為資訊的載體,他們的目的都是記錄和傳播資訊,就像我們的老祖先一樣烏拉烏拉幾句,對方就明白了,你丫的罵我,拿起石頭就扔過去了,其實他們的這種交流可以概括為 資訊1 編...
自然語言處理 序列模型
本文主要寫些關於常見序列模型的一些理解,主要是為了記錄一下,自己對這幾個模型的理解還遠遠不夠。馬爾可夫性是指當前狀態t 只和前一狀態t 1相關 一階 和之前t 2之前的就不相關,這個也算是n gram語言模型吧,都是為了控制模型複雜度 一方面模型過於複雜,資料集不夠會導致模型達不到收斂 另外一方面模...
自然語言處理(N gram語言模型)
n gram語言模型 問題描述 由於公司業務產品中,需要使用者自己填寫公司名稱,而這個公司名稱存在大量的亂填現象,因此需要對其做一些歸一化的問題。在這基礎上,能延伸出乙個 使用者填寫的公司名是否有效的模型出來。目標 問題提出來了,就是想找到一種辦法來 使用者填寫的公司名是否有效?問題分析 要想 使用...