熵:原本物理學中的定義,後來夏農將其引申到啦資訊理論領域,用來表示資訊量的大小。資訊量大(分類越不「純淨」),對應的熵值就越大,反之亦然。
資訊熵的計算公式:
聯合熵:一維隨機變數分布推廣到多維隨機變數分布。
聯合熵的計算公式:
條件熵: h(y|x) 表示在已知隨機變數 x 的條件下隨機變數 y 的不確定性。條件熵 h(y|x) 定義為 x 給定條件下 y 的條件概率分布的熵對 x 的數學期望。
條件熵的計算公式:
資訊增益:以某特徵劃分資料集前後的熵的差值。即待分類集合的熵和選定某個特徵的條件熵之差。
基尼不純度即基尼指數
基尼不純度的計算公式:
決策樹的不同分類演算法
id3演算法
原理:id3演算法是一種貪心演算法,用來構造決策樹。id3演算法起源於概念學習系統
(cls),以資訊熵的下降速度為選取測試屬性的標準,即在每個節點擊取還尚未被用來劃分的具有最高資訊增益的屬性作為劃分標準,然後繼續這個過程,直到生成的決策樹能完美分類訓練樣例。
應用場景:決策樹id3演算法是乙個很有實用價值的示例學習演算法,它的基礎理論清晰,演算法比較簡單,學習能力較強,適於處理大規模的學習問題,是資料探勘和知識發現領域中的乙個很好的範例,為後來各學者提出優化演算法奠定了理論基礎。id3演算法特別在機器學習、知識發現和資料探勘等領域得到了極大發展。
c4.5
原理:c4.5是一系列用在機器學習和資料探勘的分類問題中的演算法。它的目標是監督學習:給定乙個資料集,其中的每乙個元組都能用一組屬性值來描述,每乙個元組屬於乙個互斥的類別中的某一類。c4.5的目標是通過學習,找到乙個從屬性值到類別的對映關係,並且這個對映能用於對新的類別未知的實體進行分類。
應用場景:決策樹(decision tree)是用於分類和**的主要技術,它著眼於從一組無規則的事例推理出決策樹表示形式的分類規則,採用自頂向下的遞迴方式,在決策樹的內部節點進行屬性值的比較,並根據不同屬性判斷從該節點向下分支,在決策樹的葉節點得到結論。因此,從根節點到葉節點就對應著一條合理規則,整棵樹就對應著一組表示式規則。基於決策樹演算法的乙個最大的優點是它在學習過程中不需要使用者了解很多背景知識,只要訓練事例能夠用屬性即結論的方式表達出來,就能使用該演算法進行學習。
決策樹演算法在很多方面都有應用,如決策樹演算法在醫學、製造和生產、金融分析、天文學、遙感影像分類和分子生物學、機器學習和知識發現等領域得到了廣泛應用。
cart分類樹
原理:是一種應用廣泛的決策樹演算法,不同於 id3 與 c4.5, cart 為一種二分決策樹, 每次對特徵進行切分後只會產生兩個子節點,而id3 或 c4.5 中決策樹的分支是根據選定特徵的取值來的,切分特徵有多少種不同取值,就有多少個子節點(連續特徵進行離散化即可)。cart 設計回歸與分類,接下來將分別介紹分類樹與回歸樹。
應用場景:cart演算法既可以處理離散型問題,也可以處理連續型問題。cart演算法是一種非常有趣且十分有效的非引數分類和回歸方法。它通過構建二叉樹達到**目的。它已在統計、資料探勘和機器學習領域中普遍使用,是一種應用廣泛的決策樹演算法。
回歸樹原理
決策樹實際上是將空間用超平面進行劃分的一種方法,每次分割的時候,都將當前的空間一分為二, 這樣使得每乙個葉子節點都是在空間中的乙個不相交的區域,在進行決策的時候,會根據輸入樣本每一維feature的值,一步一步往下,最後使得樣本落入n個區域中的乙個(假設有n個葉子節點)
防止過擬合的方法
減少特徵值
控制迭代次數
正則化
Task 3 特徵工程
1 通過箱線圖 或3 sigma 分析刪除異常值 2 box cox轉換 處理有偏分布 3 長尾截斷 1 標準化 換為正態分佈 2 歸一化 3 針對冪律分布,可採用公式 1 x 1 median 1 等頻分桶 2 等距分桶 3 best ks 分桶 類似利用基尼指數進行二分類 4 卡方分桶 1 不處...
Task 3 特徵工程
1.異常處理 2.特徵歸一化 標準化 3.資料分桶 4.缺失值處理 5.特徵構造 1.異常處理 1 通過箱線圖 或3 sigma 分析刪除異常值 2 box cox轉換 處理有偏分布 3 長尾截斷 1 標準化 換為正態分佈 2 歸一化 3 針對冪律分布,可採用公式 1 x 1 median 1 等頻...
TASK3 異常處理
try 檢測範圍 except exception as reason 出現異常後的處理 首先執行try語句,若沒有異常發生則執行完try語句後結束,若發生異常,try語句中的其他語句將被忽略,異常型別與except中相符則執行except後的語句,不相符則上傳給上層的try語句。try 檢測範圍 ...