回顧:請參考課本3.3節,對決策樹的幾個演算法(id3,c4.5,cart)進行總結。其中總結需要包括:演算法的整體流程是什麼?什麼是熵?什麼是資訊增益?什麼是基尼指數?
熵:隨機變數不確定性的度量,表示系統內部的混亂程度。
h (x
)=−σ
i=1n
pilo
g2pi
,其中p
(x=x
i)=p
i,(i
=1,2
,...
,n
)h(x)=-\sigma_^n p_i log_2 p_i, 其中p(x=x_i)=p_i, (i=1,2,...,n)
h(x)=−
σi=1
npi
log
2pi
,其中
p(x=
xi)
=pi
,(i=
1,2,
...,
n)資訊增益:特徵x使得類別y不確定性減少的程度。
g (d
,a)=
h(d)
−d(d
∣a
)g(d,a)=h(d)-d(d|a)
g(d,a)
=h(d
)−d(
d∣a)
基尼指數:隨機選中的樣本被分錯的概率。
g in
i(p)
=σk=
1kpk
(1−p
k)=1
−σk=
1kpk
2gini(p)=\sigma_^k p_k(1-p_k)=1-\sigma_^kp_k^2
gini(p
)=σk
=1k
pk(
1−pk
)=1
−σk=
1kp
k2
決策樹剪枝,是為了防止過擬合的風險。
決策樹剪枝分為預剪枝和後剪枝。預剪枝是在構建決策樹的過程中,根據一些閾值來判斷乙個節點是否需要進行**,一般閾值會設定為樹的深度,葉子節點的個數,節點內部的樣本數。後剪枝是構建完決策樹之後,根據一定的衡量指標來判斷是否剪枝。
補充:決策樹的優缺點是什麼?
優點:決策樹可解釋性較強,構建好的決策樹易於進行視覺化。
決策樹可用於小資料集。
對缺失值不敏感。
既能用於分類問題,也能用於回歸問題。
缺點:決策樹容易出現過擬合。
處理特徵關聯性較強的資料時,表現不太好。
各類樣本數不平衡時,資訊增益會偏向於,屬性值多而每種屬性值的樣本數很少的特徵。
回顧:邏輯回歸能夠手推一把嗎?請拍照上傳(其中包括:伯努利過程,極大似然,損失函式,梯度下降)
補充:邏輯回歸優缺點是什麼?
優點:模型簡單,可解釋性強。
適用於工業界。
訓練速度快,節省記憶體,計算量和儲存量和特徵數有關。
缺點:形式簡單,容易出現欠擬合。
很難處理樣本不平衡的情況。
補充:為什麼邏輯回歸需要歸一化?
邏輯回歸使用梯度下降方法進行優化,歸一化可以提高收斂速度,增加收斂精度。
補充:關於邏輯回歸,連續特徵離散化的好處?
稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件。
離散化後的特徵對異常資料有很強的魯棒性:比如乙個特徵是年齡》30 是1,否則0。如果特徵沒有離散化,乙個異常資料「年齡300 歲」會給模型造成很大的干擾。
特徵離散化後,模型會更穩定,比如如果對使用者年齡離散化,20-30 作為乙個區間,不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反,所以怎麼劃分區間是門學問。
補充:邏輯回歸能否解決非線性的分類問題?
可以,只要使用核技巧。
決策樹 決策樹引數介紹(分類和回歸)
前面總結了資訊熵,資訊增益和基尼資訊的定義,以及決策樹三大演算法的原理及迭代過程,今天介紹下python中機器學習sklearn庫中決策樹的使用引數 決策樹既可以做分類,也可以做回歸,兩者引數大體相近,下面會先介紹分類,再對回歸不一樣的引數做單獨說明 1 criterion 特徵選取方法,可以是gi...
邏輯回歸 決策樹和支援向量機(I)
機器學習 視覺化特徵空間 邏輯回歸 決策邊界 svm決策樹 摘要 分類問題是商業業務中遇到的主要問題之一。本文對三種主要技術展開討論,邏輯回歸 logistic regression 決策樹 decision trees 和支援向量機 support vector machine,svm 分類問題是...
邏輯回歸 決策樹和支援向量機(I)
分類問題是我們在各個行業的商業業務中遇到的主要問題之一。在本文中,我們將從眾多技術中挑選出三種主要技術展開討論,邏輯回歸 logistic regression 決策樹 decision trees 和支援向量機 support vector machine,svm 上面列出的演算法都是用來解決分類...