參考部落格:
根據一些 feature 進行分類,每個節點提乙個問題,通過判斷,將資料分為兩類,再繼續提問。這些問題是根據已有資料學習出來的,再投入新資料的時候,就可以根據這棵樹上的問題,將資料劃分到合適的葉子上。
個人總結(不能保證正確),一組資料的特徵用向量表示,比如[x1,x2,x3,x4]有4個特徵,先通過x1特徵分為2類,然後再接著使用x2特徵分類,直到終止條件或特徵使用完。可以看成把特徵序列起來使用。根節點使用什麼特徵?什麼時候終止?參考部落格:
隨機森林是為了解決決策樹容易過擬合的缺點(見上述參考部落格),採用了多個決策樹的投票機制來改善決策樹,我們假設隨機森林使用了m棵決策樹,那麼就需要產生m個一定數量的樣本集來訓練每一棵樹,如果用全樣本去訓練m棵決策樹顯然是不可取的,全樣本訓練忽視了區域性樣本的規律,對於模型的泛化能力是有害的。產生n個樣本的方法採用bootstraping法,這是一種有放回的抽樣方法,產生n個樣本而最終結果採用bagging的策略來獲得,即多數投票機制
隨機森林的生成方法:
1.從樣本集中通過重取樣的方式產生n個樣本
2.假設樣本特徵數目為a,對n個樣本選擇a中的k個特徵,用建立決策樹的方式獲得最佳分割點
3.重複m次,產生m棵決策樹
4.多數投票機制來進行**
(需要注意的一點是,這裡m是指迴圈的次數,n是指樣本的數目,n個樣本構成訓練的樣本集,而m次迴圈中又會產生m個這樣的樣本集)
參考部落格:
給乙個新的資料時,離它最近的 k 個點中,哪個類別多,這個資料就屬於哪一類
如下圖,綠色圓要被決定賦予哪個類,是紅色三角形還是藍色四方形?如果k=3,由於紅色三角形所佔比例為2/3,綠色圓將被賦予紅色三角形那個類,如果k=5,由於藍色四方形比例為3/5,因此綠色圓被賦予藍色四方形類
演算法步驟:
1)計算測試資料與各個訓練資料之間的距離;
2)按照距離的遞增關係進行排序;
3)選取距離最小的k個點;
4)確定前k個點所在類別的出現頻率;
5)返回前k個點中出現頻率最高的類別作為測試資料的**分類。
參考部落格:
adaboost 是一種迭代演算法,其核心思想是針對同乙個訓練集訓練不同的分類器,即弱分類器,然後把這些弱分類器集合起來,構造乙個更強的最終分類器。
參考部落格:
要將兩類分開,想要得到乙個超平面,最優的超平面是到兩類的 margin 達到最大,margin就是超平面與離它最近一點的距離,如下圖,z2>z1,所以綠色的超平面比較好
參考部落格:
貝葉斯分類演算法是統計學的一種分類方法,它是一類利用概率統計知識進行分類的演算法。在許多場合,樸素貝葉斯(naïve bayes,nb)分類演算法可以與決策樹和神經網路分類演算法相媲美,該演算法能運用到大型資料庫中,而且方法簡單、分類準確率高、速度快。
既然是樸素貝葉斯分類演算法,它的核心演算法又是什麼呢?
是下面這個貝葉斯公式
參考部落格:
機器學習之 多類分類問題
在之前的部落格中,我們討論了邏輯回歸模型 logistic regression 解決分類問題。但是我們發現,邏輯回歸模型解決的是二分問題,即 模型的結果只有兩個值,y 0 or y 1 但是在現實情境下,我們的訓練集往往包含多個類 2 我們就無法用乙個二元變數 y 0 y 1 來做判斷依據了。舉個...
機器學習3 分類演算法
機器學習一般的資料集會劃分為兩個部分 劃分比例 想一下之前做的特徵工程的步驟?我們把特徵工程的介面稱之為轉換器,其中轉換器呼叫有這麼幾種形式 在sklearn中,估計器 estimator 是乙個重要的角色,是一類實現了演算法的api 2 用於回歸的估計器 3 用於無監督學習的估計器 如果乙個樣本在...
機器學習二分類精度
針對二分類的結果,對模型進行評估,通常有以下幾種方法 初始作如下定義 真實結果10 結果 1tp 真陽性 fp 假陽性 0fn 假陰性 tn 真陰性 precision 準確率 可以理解為 結果為正類中有多少是正類,給出定義如下 recall 召回率 可以理解為真實結果為正類中有多少被 成正類,給出...