深度之眼 決策樹和邏輯回歸打卡

2021-10-02 16:30:10 字數 1912 閱讀 6431

回顧:請參考課本3.3節,對決策樹的幾個演算法(id3,c4.5,cart)進行總結。其中總結需要包括:演算法的整體流程是什麼?什麼是熵?什麼是資訊增益?什麼是基尼指數?

熵:隨機變數不確定性的度量,表示系統內部的混亂程度。

h (x

)=−σ

i=1n

pilo

g2pi

,其中p

(x=x

i)=p

i,(i

=1,2

,...

,n

)h(x)=-\sigma_^n p_i log_2 p_i, 其中p(x=x_i)=p_i, (i=1,2,...,n)

h(x)=−

σi=1

n​pi

​log

2​pi

​,其中

p(x=

xi​)

=pi​

,(i=

1,2,

...,

n)資訊增益:特徵x使得類別y不確定性減少的程度。

g (d

,a)=

h(d)

−d(d

∣a

)g(d,a)=h(d)-d(d|a)

g(d,a)

=h(d

)−d(

d∣a)

基尼指數:隨機選中的樣本被分錯的概率。

g in

i(p)

=σk=

1kpk

(1−p

k)=1

−σk=

1kpk

2gini(p)=\sigma_^k p_k(1-p_k)=1-\sigma_^kp_k^2

gini(p

)=σk

=1k​

pk​(

1−pk

​)=1

−σk=

1k​p

k2​

決策樹剪枝,是為了防止過擬合的風險。

決策樹剪枝分為預剪枝和後剪枝。預剪枝是在構建決策樹的過程中,根據一些閾值來判斷乙個節點是否需要進行**,一般閾值會設定為樹的深度,葉子節點的個數,節點內部的樣本數。後剪枝是構建完決策樹之後,根據一定的衡量指標來判斷是否剪枝。

補充:決策樹的優缺點是什麼?

優點:決策樹可解釋性較強,構建好的決策樹易於進行視覺化。

​ 決策樹可用於小資料集。

​ 對缺失值不敏感。

​ 既能用於分類問題,也能用於回歸問題。

缺點:決策樹容易出現過擬合。

​ 處理特徵關聯性較強的資料時,表現不太好。

​ 各類樣本數不平衡時,資訊增益會偏向於,屬性值多而每種屬性值的樣本數很少的特徵。

回顧:邏輯回歸能夠手推一把嗎?請拍照上傳(其中包括:伯努利過程,極大似然,損失函式,梯度下降)

補充:邏輯回歸優缺點是什麼?

優點:模型簡單,可解釋性強。

​ 適用於工業界。

​ 訓練速度快,節省記憶體,計算量和儲存量和特徵數有關。

缺點:形式簡單,容易出現欠擬合。

​ 很難處理樣本不平衡的情況。

補充:為什麼邏輯回歸需要歸一化?

邏輯回歸使用梯度下降方法進行優化,歸一化可以提高收斂速度,增加收斂精度。

補充:關於邏輯回歸,連續特徵離散化的好處?

稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件。

離散化後的特徵對異常資料有很強的魯棒性:比如乙個特徵是年齡》30 是1,否則0。如果特徵沒有離散化,乙個異常資料「年齡300 歲」會給模型造成很大的干擾。

特徵離散化後,模型會更穩定,比如如果對使用者年齡離散化,20-30 作為乙個區間,不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反,所以怎麼劃分區間是門學問。

補充:邏輯回歸能否解決非線性的分類問題?

可以,只要使用核技巧。

決策樹 決策樹引數介紹(分類和回歸)

前面總結了資訊熵,資訊增益和基尼資訊的定義,以及決策樹三大演算法的原理及迭代過程,今天介紹下python中機器學習sklearn庫中決策樹的使用引數 決策樹既可以做分類,也可以做回歸,兩者引數大體相近,下面會先介紹分類,再對回歸不一樣的引數做單獨說明 1 criterion 特徵選取方法,可以是gi...

邏輯回歸 決策樹和支援向量機(I)

機器學習 視覺化特徵空間 邏輯回歸 決策邊界 svm決策樹 摘要 分類問題是商業業務中遇到的主要問題之一。本文對三種主要技術展開討論,邏輯回歸 logistic regression 決策樹 decision trees 和支援向量機 support vector machine,svm 分類問題是...

邏輯回歸 決策樹和支援向量機(I)

分類問題是我們在各個行業的商業業務中遇到的主要問題之一。在本文中,我們將從眾多技術中挑選出三種主要技術展開討論,邏輯回歸 logistic regression 決策樹 decision trees 和支援向量機 support vector machine,svm 上面列出的演算法都是用來解決分類...