機器學習(西瓜書)第七章筆記

2021-10-01 20:05:41 字數 1274 閱讀 2134

極大似然估計這種引數估計方法雖能使類條件概率估計變得相對簡單,但是結果的準確性嚴重依賴於所假設的概率分布形式是否符合潛在的真實資料分布。

laplacian correction避免了因訓練集樣本不充分而導致概率估值為零的問題,並且在訓練集變大時,修正過程所引入的先驗的影響也會逐漸變得可忽略,使得估值漸漸趨向於實際概率值。

貝葉斯分類中後驗概率p(c|x)的求解確實很困難,於是提出了半樸素貝葉斯分類器。

基本想法:適當考慮一部分屬性間的相互依賴資訊,從而既不需要進行完全聯合概率計算,又不至於徹底忽略了比較強的屬性依賴關係。

習題答案

1.試使用極大似然法估算西瓜資料集3.0中前3個屬性的類條件概率。

極大似然法要先假定一種概率分布形式。

色澤:對於好瓜,假設

p(色澤=青綠|好瓜)=σ1σ1

p(色澤=烏黑|好瓜)=σ2σ2

p(色澤=淺白|好瓜)=σ3σ3=1−σ1−σ21−σ1−σ2

l(σ)=⋂ip(色澤=xi|好瓜)=σ31σ42(1−σ1−σ2)l(σ)=⋂ip(色澤=xi|好瓜)=σ13σ24(1−σ1−σ2)

l′(σ1)=σ42σ21(3−4σ1−3σ2)l′(σ1)=σ24σ12(3−4σ1−3σ2)

l′(σ2)=σ31σ32(4−4σ1−5σ2)l′(σ2)=σ13σ23(4−4σ1−5σ2)

令l′(σ1)=0,l′(σ2)=0′(σ1)=0,l′(σ2)=0得σ1=38σ1=38,σ1=12σ1=12,σ3=18σ3=18

可以看出σ1,σ2,σ3σ1,σ2,σ3分別對應他們在樣本**現的頻率。

對於壞瓜以及另外兩種屬性計算方式相同,得出類似的結果。

4.實踐中用式(7.15)決定分類類別時,若資料的維度非常高,則連乘的概率結果會非常接近0並導致下溢。試述防止下溢的可能方案。

若連乘的式子太多,導致乘積接近0。由於屬性個數是已知的,可以對每個乘式做適當次的開方處理,可以保證結果不會為0。另外也可以對各項取對數,當累加太多時,可能導致和接近負無窮。可以對每個加數除以屬性的個數,來防止溢位。

7.給定d個二值屬性的分類任務,假設對於任何先驗概率的估算需要30個樣本。試估計aode中估算先驗概率p(c,xi)p(c,xi)所需要的樣本數。

顯然對於正負樣本,各屬性對應的取值xixi需要出現30次。

最好的情況下,只需要60個樣本就能就能估算概率。其中30個xixi屬性的樣本取值為1,30個xixi屬性的樣本取值為0。儘管這不符合實際情況(相同屬性取值不同)。

最壞的情況下,要60d個樣本才能估算。其中每個樣本只有乙個屬性和測試樣本xixi相同,其餘都是另乙個取值。

第七章筆記

程序就是cpu未完成的工作 檢視程序的相關命令 ps a 關於當前環境的所有程序 x 與當前環境無關的所有程序 f 顯示程序從屬關係 e 顯示當前使用者環境中的所有程序 l 長列表顯示程序的詳細資訊 u 顯示程序的使用者資訊 ps ax o cpu,mem,user,group,comm,nice,...

K R學習筆記 第七章

這一章講i o。i o本來是與作業系統高度相關的內容,但是這一章,卻從標準庫的角度,介紹了如何使用i o。而把i o的一些具體實現細節留在了最後一章中。首先需要注意的是,標準庫中的許多 函式 都是巨集,比如getchar putchar tolower 等等。這樣做的目的是為了減小函式呼叫的開銷,想...

C primer plus 學習筆記(第七章)

第七章 函式 c 的程式設計模組 7.3.5 指標和const 前提 int grop 16 int chips 12 const int p snack gorp const會鎖定後面乙個符號,所以,此時 p snack chips allowed p snack 20 error前提 int g...