決策樹學習筆記

2022-10-09 19:39:08 字數 1890 閱讀 1175

希望根據樣本的若干個特徵對其進行分類。

決策樹是一種判別模型。

特徵:\(x_1,x_2...x_m,y\)

樣本:\(x_1,x_2..x_n\)

可以進行二分類也可以進行多分類。一般來說使用決策樹的時候特徵取值都是離散的。最終想要學習到的是特徵和標籤之間的關係。

\[\begin &x_1&x_2&...&y\\ x_1&1&0&...&1\\ x_2&0&1&...&0\\...\\ \end

\]現在從列的角度出發,可能存在某乙個特徵,對於分類的作用大於其他的特徵。考慮使用樹,從根節點進行二分。設\(x_1\)為我們所選的對於分類作用最大的特徵,把它作為根節點,\(x_1\)取1的樣本放到左邊,\(x_1\)取0的樣本放到右邊。同樣對於其兒子,又可以選擇分類作用次大的特徵繼續進行分類,注意,對於同層的節點,不一定選擇相同的特徵,而是應該選擇分類效果最好的那個特徵。不斷分類下去直到葉子節點停止分類。葉子節點的樣本的標籤相同。

設\(\omega\)為概率空間,存在兩個離散的隨機變數\(x,y\)。\(x\)取\(x_1,x_2...x_n\),\(y\)取\(y_1,y_2...y_m\)。

定義\(p(x=x_i)=p(x_i)\),\(p(y=y_j)=p(y_j)\)。根據全概率公式,\(\sigma_^n p(x_i)=1\),\(\sigma_^m p(y_j)=1\)。

現在來看他們的聯合分布:\(p(x=x_i,y=y_j)=p(x_i,y_j)\)

\(x\)的邊緣分布:\(p(x_i)=\sigma_^m p(x_i,y_j)\)。

條件概率:\(p(x=x_i|y=y_j)=\frac=\frac=p(x_i|y_j)\)。

\(h(x)=-\sigma_^np(x_i)logp(x_i)=\sigma_^np(x_i)log(\frac)>=0\)

那麼熵什麼時候等於0呢?\(p(x_1)=1,p(x_i)=0(i>1)\)。

那麼熵是否存在極大值呢?是否能趨向正無窮呢?注意到\(p(x_i)\)的和是1,\(h(x)\leq log\sigma_^np(x_i)\frac=logn\)。

注意這裡的不等式實際上是根據琴聲不等式得來的。

因此可以得到熵的範圍:\([0, logn]\)

條件熵:\(h(x|y)=-\sigma_^m p(y_j) (\sigma_^n p(x_i|y_i)log(p(y_i|x_i)))\)

\(h(x)-h(x|y)=-\sigma_^n p(x_i)logp(x_i)+\sigma_^m p(y_j) (\sigma_^n p(x_i|y_i)log(p(y_i|x_i)))\\=-\sigma_^n p(x_i)logp(x_i)+\sigma_^m \sigma_^np(x_i,y_j)log\frac\\=....=\sigma_^n\sigma_^m p(x_i,y_j)log\frac\)

有\(h(y)-h(y|x)=h(x)-h(x|y)\)。資訊增益?

\(x,y\)獨立,有\(p(x_i,y_i)=p(x_i)p(y_i)\),\(h(x)-h(x|y)=0\)。給出y判斷x或者給出x判斷y是沒有增益的,因為兩者獨立。

利用凹函式的性質,可以知道資訊增益大於等於0。

先從根節點開始,計算熵 。

令\(d_0=|\|\),\(d_1=|\|\)

\(h(y)=-\fraclog\frac\)

令\(d_=|\|\)....\(d_\),\(|\|=d_+d_\)...

\(h(y|x_1)=-\frac+d_}[\frac}+d_}log\frac}+d_}+\frac}+d_}log\frac}+d_}]-\frac+d_}[\frac}+d_}log\frac}+d_}+\frac}+d_}log\frac}+d_}]\)

因此需要選\(max_(h(y)-h(y|x_i))\)這個特徵進行第一次分類。那麼什麼時候分類停止?節點的熵等於0.

決策樹學習筆記

模型 監督學習中的分類演算法 決策樹演算法的思路 利用樹的結構,將資料集中的特徵 屬性 劃分為樹中的分支節點 資料集中類別標籤對應樹的葉節點。構建決策樹的三要素 1.特徵選擇 資訊熵或資訊增益gini係數來選擇特徵 2.決策樹的生成 id3演算法 資訊增益 c4.5演算法 gini係數 3.決策樹的...

決策樹學習筆記

一 什麼是決策樹 決策樹是一種基於規則的方法,它用一組巢狀的規則進行 在樹的每個決策節點處,根據判斷結果進入乙個分之,反覆執行這種操作直到到達葉子節點,得到 結果。這些規則是通過訓練得到的,而不是認為設定的。規則是每一次 時的閥值。二 樹形成決策的過程 為便於用程式實現,一般將決策樹設計成二叉樹。與...

決策樹學習筆記

決策樹是一種有監督機器學習方法。熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則其隨機變數的資訊熵為 熵越大,則隨機變數的不確定性越大。決策樹的目的就是讓資訊熵越來越小,分類則越來越明確。資訊增益表示得知特徵a的資訊而使得總樣本d的資訊的不確定性...