假設正類和反類的樣例數目相當,但是有時候樣例數量的差別較大,比如正例樣本有998個,而反例樣本只有2個,此時學習方法如果一直返回正例則**的準確度會高達
99.8
% ,但是這樣的學習器沒有任何價值。cl
ass-
imba
lanc
e 是指分類任務中不同類別的訓練樣例的數目差別非常大的情況
假定正類樣本較少,反類樣本較多
從線性分類器的角度討論,在使用y=
wtx+
b 對新樣本進行分類的時候,實際上是在用**出的
y 值和乙個閾值進行比較,通常在
y>
0.5時判為正例,否則為反例。
y實際上表達了正例的可能性,機率y1
−y反應了正例可能性和反例可能性的比值,此時閾值
0.5 表明了分類器認為真實正、反例可能性相同,y1
−y>1
則**為正例,反之為反例。
類別不平衡的處理
觀測機率:m+
m−
m+表示正例數目 m−
表示反例數目
此時決策規則改為: y1
−y>m+
m−則**為正例,反之為反例。
取樣假定正類樣本較少,反類樣本較多
欠取樣減少多的,這裡除去一些反例樣本,使得正反例樣本數量接近
過取樣增加少的,這裡增加一些正例樣本,使得正反例樣本數量接近
基於原始訓練集
對樣本數量不做處理,保持原狀,
使用再縮放策略,
再縮放y′
1−y′
=y1−
y×m−
m+將上式嵌入到決策過程中。
機器學習筆記 線性模型
寫在前面的一些廢話 伴隨課程以及自習,學得既算系統也算零散。學校多統計,演算法講解幾近寥寥。自古以來,統計系的教授多半樂於指摘機器學習與人工智慧,但學科總又不得不與之掛鉤密切,且多隨其發展潮起潮落。內部糾紛,不足為外人道已。只有深受其紛雜概念困擾的學習者,感觸頗深。不隨時總結,建立知識庫,實在容易迷...
機器學習線性模型學習筆記
參考 周志華機器學習第三章 給定由d個屬性描述的示例x x1 x2 x d 其中xi是x在第i個屬性上的取值,線性模型試圖學得乙個通過屬性的線性組合來進行 函式,即 f x w 1x1 w2x2 wdx d b 一般用向量形式寫成 f x w tx b 其中w w1 w2 w d w和b學得之後,模...
機器學習 1 機器學習類別,線性回歸
包括分類,回歸等問題模型。簡單來說,在有監督學習中,所有的資料都會被 打上標籤,基於已知的資料集,進行訓練,然後使用訓練好的模型去 未知的資料集的 結果。包括聚類,關聯規則等問題模型。無監督學習中的資料是沒有標籤的,只能通過一些計算去學習 一些未知的知識。比如聚類演算法中依靠計算距離最近的點,將其分...