第五章 決策樹
決策樹是一種基本的分類和回歸方法
決策樹可以看做乙個if-else規則的集合,到達每個葉子的路徑是固定的,可以看做是乙個規則。
決策樹還可以認為是一種條件概率分布。
決策樹一般用於分類,通過大量資料集的訓練構建乙個決策樹模型,使用該模型能夠進行正確的分類。
np完全問題(這裡的np其實是non-deterministic polynomial的縮寫,即多項式複雜程度的非確定性問題,np完全問題有時也會簡稱為np-c問題。)
決策樹的學習演算法通常是乙個遞迴的選擇最優特徵,然後分層劃分,使得各個子資料集有乙個更好的分類過程。這個過程類似從根節點到葉節點層層畫樹。
熵(entropy)表示隨機變數的不確定性,例如:
熵越大,隨機變數的不確定性就越大。
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...
統計學習方法筆記
1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...
統計學習方法(第2章)感知機 學習筆記
感知機是二類分類的線性分類模型,其輸入為例項的特徵向量,感知機對應於輸入空間 特徵空間 中將例項劃分為正負兩類的分離超平面,屬於判別模型。匯入基於誤分類的損失函式,利用梯度下降法對損失函式進行極小化,求得感知機模型。感知機學習演算法分為原始形式和對偶形式,是神經網路和支援向量機的基礎。感知機定義 假...