1. 為什麼資訊熵要定義成-σp*log(p)?
三個原因:(1) 越小概率的事情發生了,資訊量越大,即資訊量與概率成反比;(2)兩個資訊量的資訊量是加和的關係,兩個概率的概率是相乘的關係,只有log函式能滿足這種關係;(3)乙個事件總的資訊量就是每一種可能的情況的資訊量乘以它們發生的概率,其實就是資訊量的數學期望。
2. 決策樹有哪些優點和缺點:
優點:容易解釋,簡單
缺點:過擬合問題(需要找到好的tree depth來避免),不好把握特徵之間的關係,貪心演算法可能得不到全域性最優,隨機森林可以一定程度上緩解這些情況.
3. 極大似然估計(from
目的:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的引數值,"模型已定,引數未知". 決策樹裡用來確定經驗熵或條件熵(在概率未知的情況下).
4. 隨機森林(from
2023年由breiman提出,在變數(列)和資料(行)的使用上進行隨機化,生成很多分類樹,再彙總分類樹的結果.
優點:a.兩個隨機性的引入,使得隨機森林不容易陷入過擬合
b.兩個隨機性的引入,使得隨機森林具有很好的抗雜訊能力
c.能處理高維度的資料(feature很多),並且不用做特徵選擇,對資料集的適應能力強;能處理離散型和連續型資料,而且無需規範化
d. 可生成乙個proximities=(pij)矩陣,用於度量樣本之間的相似性: pij=aij/n, aij表示樣本i和j出現在隨機森林中同乙個葉子結點的次數,n隨機森林中樹的顆數
e. 在建立隨機森林的時候,對generlization error使用的是無偏估計
f. 訓練速度快,可以得到變數重要性排序(兩種:基於oob誤分率的增加量和基於**時的gini下降量
g. 在訓練過程中,能夠檢測到feature間的互相影響
h. 容易做成並行化方法
i. 實現比較簡單
5. pearson correlation 皮爾遜相關(from
用途: 度量相似性(距離),兩個變數的相關性的值介於-1與1之間,值越大則說明相關性越強.
兩個變數的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商.
6. 提公升樹
以決策樹為基函式的提公升方法為提公升樹.
提公升方法實際採用加法模型(即基函式的線性組合)與前向分步演算法.
統計學習方法 決策樹
決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...
統計學習方法 決策樹
決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...
統計學習方法 5 決策樹
分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別 內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。決策樹的路徑或其對應的if then規則集合具有乙個重要的性質 互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑...