Machine Learning中的資料不平衡問題

2021-07-11 12:02:29 字數 772 閱讀 4969

for each point p in s:

1. 計算點p在s中的k個最近鄰

2. 有放回地隨機抽取r≤k個鄰居

3. 對於這r個點,每乙個點與點p組成一條直線,在這條直線上隨機選取乙個點作為新的樣本,從而產生r個新的點。

4. 將這些新的點加入s中

smote改進1

少數類small裡面的每乙個點p:

1. 計算點p在整個訓練集上的m個最近鄰,並且m'代表其中屬於large類的數量

2. 如果 m'= m, p 是乙個雜訊,不做任何操作

3. 如果 0 ≤m'≤m/2, 則說明p很安全,不做任何操作

4. 如果 m/2 ≤ m'≤ m, 那麼我們需要在這個點附近生成一些新的少數類點,此時將p加入到乙個集合d中.最後對集合d中的每乙個點使用smote演算法生成新的樣本

smote改進2:此方法基於上面的smote1,用到其中的集合d

對於d中的每乙個點p:

1.在small和large中分別得到k個最近鄰樣本sk和lk

2.在sk中選出α比例的樣本點和p作隨機的線性插值產生新的少數類樣本

3.在lk中選出1−α比例的樣本點和p作隨機的線性插值產生新的少數類樣本

另外還有一些整合方法應用於解決樣本不平衡問題,例如每次從多數類中抽取樣本,使得每個模型的多數類樣本數量和少數類樣本數量相同,最後將這些模型整合起來。

Machine Learning 梯度下降

對於lost function利用梯度下降的方法實現引數調整,梯度下降在每一次迭代的過程中需要全部樣本參與,而隨機梯度法或增量梯度法在迭代中利用樣本中的乙個樣本更新引數。梯度下降達到全域性最優 include include using namespace std define maxiter 22...

安裝Machine Learning環境

公升級python版本到3.5以上。詳情參考linux公升級python版本 步驟1中也包含了安裝pip 第一批ml環境 pip install tensorflow pip install keras pip install beautifulsoup4 pip install lxml pip ...

機器學習(Machine Learning)

最近開始接觸機器學習,簡稱ml。ml 可以這樣理解,從一堆資料中提煉出特徵值。首先,我們需要在計算機中儲存歷史的資料。接著,我們將這些 資料通過機器學習演算法進行處理,這個過程在機器學習中叫做 訓練 處理的結果可以被我們用來對新的資料進行 這個結果一般稱之為 模型 對新資料 的 過程在機器學習中叫做...