1.熵:一種事物的不確定性被稱為熵(該挑什麼樣的西瓜,具有不確定性)
2.資訊:消除不確定性的事物 如調整概率(根據西瓜的顏色、條紋等特徵增大判斷的準確率)、排除干擾,也有可能直接確定情況(賣瓜人:切開不甜不要錢)
3.噪音:不能消除某人對某件事情的不確定性
4.資料:資訊+噪音(去買瓜時所有看到的可為買瓜做出的參考與聽到的包括老闆叫賣聲在內的整體)
5.熵的度量:先明確所謂的度量都是指確定一套統一的標準,然後將需要度量的事物皆轉化成此統一標準。 熵的度量:我的不確定性相當於拋幾次硬幣的不確定性 熵的單位是bit
5.1均勻分布下:m個等概率不同的情況,相當於拋n次硬幣 那麼熵就等於n,求解時
5.2一般分布下:相當於將不確定性轉變為確定性之間的減法,注意公式前的等號,相當於pk*log(1/pk)
6.資訊的度量:得知資訊前後熵的差額,就是資訊的量,資訊和熵是同等級的概念,熵量和資訊量是同等級概念
7.我們來舉個例子:乙個選擇題有abcd這樣4個選項,熵為
題外話:ml與dm果然是一脈相承,挑瓜計算資訊熵的過程中真的就發現了什麼特徵對於挑瓜是重要的 以下是樹模型的訓練步驟
1.計算根節點的資訊熵
2.每個特徵下的屬性分別計算一下資訊熵,各屬性之間通過比例加權得到該特徵的資訊熵
3.根節點資訊熵減各特徵的資訊熵,獲得資訊量最大的特徵作為第一次分割的節點特徵
傳統單模型的數模型(可直接稱為決策樹)有id3,c4.5,cart三種
id3:直接使用傳統意義上的資訊增益來實現
c4.5:使用資訊增益率,直接使用資訊增益對數目較多的屬性有所偏好,所以除以一次該屬性的比例,作為懲罰,所以c4.5具有一定的處理類別不平衡樣本的能力
cart:cart是「回歸與分類數」的簡稱,cart是分類樹時以gini指數作為選擇最優屬性特徵的依據,cart是回歸樹時以最小方差(又說最小二乘)為依據
1.id3、c4.5分類都是一氣呵成的使用資料集計算類訓練方式
2.決策樹最常用的訓練方法是cart(分類與回歸):進行分類任務時---採用基尼係數的大小度量特徵各個劃分點的優劣。進行回歸任務時---採用和方差度量,度量目標是對於劃分特徵a,對應劃分點s兩邊的資料集d1和d2,求出使d1和d2各自集合的均方差最小,同時d1和d2的均方差之和最小。表示式為:
其中,c1為d1的樣本輸出均值,c2為d2的樣本輸出均值。對於決策樹建立後做**的方式,cart分類樹採用葉子節點裡概率最大的類別作為當前節點的**類別。回歸樹輸出不是類別,採用葉子節點的均值或者中位數來**輸出結果,cart是二叉樹
參考:
3.多變數決策樹:使用幾個變數的線性組合來做決策進行劃分,會使得邊界不再平行而是成為「斜邊界」,「斜邊界」對資料的泛化性會非常好。
樹模型中,驗證集是用來剪枝的
預剪枝:計算之前通過某種方式判斷這個分支到底值不值得分:判斷依靠乙個特徵**後,準確率是否下降了,如果沒下降則這一支沒有意義
後剪枝:模型生成後從後向前,將不提公升精度的分支剪裁
機器學習課堂筆記4
1,機器什麼時候可以學習 2,為什麼機器可以學習 3,機器怎麼學習 4,機器怎麼樣才能學得更好 vc維 課堂筆記3中提到 break point 的概念 在資料量達到一定數量k的時候,假設集合h無法再shatter這k個資料,則成長函式mh的break point就是k。vc dimision k ...
學習筆記 機器學習 周志華 4
版本空間 存在著乙個與訓練集一致的 假設集合 此時,只有1,4兩個樣例。求版本空間的步驟 寫出假設空間 先列出所有可能的樣本點 即特徵向量 即每個屬性都取到所有的屬性值 對應著給出的已知資料集,將與正樣本不一致的 與負樣本一致的假設刪除。得出與訓練集一致的假設集合,即版本空間。首先,訓練資料集對應的...
百面機器學習筆記 4
roc曲線 question 如何計算auc?answer 首先,auc是指roc曲線下的面積大小,該值能夠量化地反映基於roc曲線衡量出的模型效能。計算auc值只需要沿著roc橫軸做積分就可以了。由於roc曲線一般都處於y x這條直線的上方 如果不是的話,只要把模型 的 概率反轉成1 p就可以得到...