機器學習 10 MachineLN之樣本不均衡

2021-09-11 05:18:54 字數 2917 閱讀 6886

你要的答案或許都在這裡:小鵬的部落格目錄

我想說:

其實很多時候,有競爭是好的事情,可以促進你的成長,可以磨練你的耐性,可以提公升你的魅力,可以表現你的豁達,可以體驗成功的喜悅,可以感受失敗其實並不可怕,可怕的是你沒有面對失敗的勇氣;而今天的社會達爾文的演化論其實從來沒有變過,唯一不變的事情想必就是變了,做慈善的是慈善機構,做教育的是學校,百依百順的是父母,只要踏上社會,那麼對不起,優勝劣汰,適者生存,你必須面對,並且你面對的都是高手,是多個依依東望的諸葛亮,你要脫穎而出除了變的更優秀沒有出路! 那麼你打算怎麼做呢?

說到樣本不均衡,感覺平時大家不太重視,下面來一起討論一下!

那麼我的問題是:

1. 什麼是樣本不均衡?

2. 為什麼要解決樣本不均衡?

3. 解決樣本不均衡有哪些方法?

看到這裡你的答案是什麼?下面是我的答案:

1. 什麼是樣本不均衡?

樣本不均衡:在準備訓練樣本的時候,各類別樣本比例不等,有的差距可能比較小,有的差距則會比較大,以cifar-10為例:

cifar-10是乙個簡單的影象分類資料集。共有10類(airplane,automobile,bird,cat,deer,dog, frog,horse,ship,truck),每一類含有5000張訓練,1000張測試。如下圖:dist. 1:類別平衡,每一類都占用10%的資料。dist. 2、dist. 3:一部分類別的資料比另一部分多。dist. 4、dist 5:只有一類資料比較多。dist. 6、dist 7:只有一類資料比較少。dist. 8: 資料個數呈線性分布。dist. 9:資料個數呈指數級分布。dist. 10、dist. 11:交通工具對應的類別中的樣本數都比動物的多。

2. 為什麼要解決樣本不均衡?

訓練網路使用的是cifar-10的結構,下面是測試結果:可以看出總的準確率表現不錯的幾組1,2,6,7,10,11都是大部分類別平衡,一兩類差別較大;而表現很差的,像5,9可以說是訓練失敗了,他們的不平衡性也比前面的要強。

那麼再看一下,對樣本少的資料進行過取樣之後,測試結果:可以看到經過過取樣將類別數量平衡以後,總的表現基本相當。(過取樣雖然是乙個很簡單的想法,但是很ok,3中還將介紹海康威視imagenet2016競賽經驗)

想必到這裡可以看到樣本均衡的重要性了吧。

3. 解決樣本不均衡有哪些方法?

解決不均衡問題的方式有很多:

(1)可以將資料進行擴增: (這些方法有時候也可以勉強做為資料不均衡的增強方法,如果訓練時候各類樣本都已經用了以下的方法進行data augmentation,那麼樣本不均衡就選其他方法來做吧)

另外也可以按照同樣的方式對多的樣本進行欠取樣;

(3)還可以用weighted samples,給每乙個樣本加權重,樣本多的類別每個的權重就小些,樣本少的類別每個的權重就大些,這樣無論樣本是否均衡,在loss function中每類的影響力都一樣的。

(4)還可以:再過取樣之後使用k-fold交叉驗證,來彌補一些特殊樣本造成的過擬合問題,(k-fold交叉驗證就是把原始資料隨機分成k個部分,在這k個部分中選擇乙個作為測試資料,剩餘的k-1個作為訓練資料。交叉驗證的過程實際上是將實驗重複做k次,每次實驗都從k個部分中選擇乙個不同的部分作為測試資料,剩餘的資料作為訓練資料進行實驗,最後可以把得到的k個實驗結果平均。)

推薦閱讀:

1. 機器學習-1:machineln之三要素

2. 機器學習-2:machineln之模型評估

3. 機器學習-3:machineln之dl

4. 機器學習-4:deepln之cnn解析

5. 機器學習-5:deepln之cnn權重更新(筆記)

6. 機器學習-6:deepln之cnn原始碼

7. 機器學習-7:machineln之啟用函式

8. 機器學習-8:deepln之bn

9. 機器學習-9:machineln之資料歸一化

10. 機器學習-10:machineln之樣本不均衡

11. 機器學習-11:machineln之過擬合

12. 機器學習-12:machineln之優化演算法

13. 機器學習-13:machineln之knn

14. 機器學習-14:machineln之knn原始碼

15. 

機器學習-15:machineln之感知機

16. 機器學習-16:machineln之感知機原始碼

17. 機器學習-17:machineln之邏輯回歸

18. 機器學習-18:machineln之邏輯回歸原始碼

機器學習1 0

支援向量機 support vector machine,svm 的基本模型是在特徵空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。兩條線哪乙個分的更好。使點到線段距離最大。藍線到最近的距離點太小,會造成誤差 2.核函式的作用就是隱含著乙個從低維空間向高維空間的對映關係,這樣就使得在低維空間...

機器學習1 0

定義 如果某電腦程式在t任務中的效能 由p衡量 隨著經驗e的提高而提高,則可以說它是從經驗e中學習有關某類任務t和效能度量p的。簡單的來說 打個比方 玩跳棋。e 玩許多跳棋遊戲的經驗 t 扮演跳棋的任務。p 程式將贏得下一場比賽的概率。通常,可以將任何機器學習問題分配給以下兩種廣泛的分類之一 監督學...

機器學習(10) 推薦系統

估計這章內容後面來的概率也比較低吧,學到一點思想,但畢竟現在推薦系統作為企業超看重的部分,發展較好,這些內容是不夠的,太入門了 推薦系統能領悟特徵學習的思想,不需要手動建立特徵 未防止後面看不懂,這裡做個說明 nu表示 使用者數量,nm表示電影數量,r i,j 1表示使用者j看過電影i,y i,j ...