機器學習中上 過 下 欠 取樣的方法

2021-09-16 18:35:07 字數 921 閱讀 3439

假設有兩個class:class1 和 class2 ,其中class1樣本數少

從class1中隨機選擇乙個點c,找到該點的k個鄰居

從k個鄰居中隨機選擇乙個點c_ne

連線c與c1,在c與c_ne的連線上生成新的點c_new

重複1-4 m步驟,可構造m個點

from sklearn.datasets import make_classification

from imblearn.over_sampling import smote

from collections import counter

# 構造不平衡資料

x,y=make_classification(n_classes=2,n_features=20,n_samples=100,shuffle=true,weights=[0.9,0.1])

#smt=smote(k_neighbors=4,sampling_strategy=0.5)

x1,y1=smt.fit_resample(x,y)

print(counter(y1))

參考文章:

easyensemble 中下取樣的方式是無監督的,只是將n做有放回的抽樣,然後與p一起,構成子樹的樣本集

balancecascade 中下取樣的方式是有監督的,在1的基礎上,用adaboost方法生成分類器h1,用h1去對n中的樣本做**,如果**對的話,那麼認為該樣本是冗餘的,就可以從n中去除;

上述兩個演算法是將下取樣與分類器一併構造;

機器學習中的 上取樣 下取樣 過取樣 欠取樣

這是兩種解決分類訓練過程中資料量不平衡的取樣方法 拿二分類舉例,期望陽性樣本數量 陰性樣本數量 1 1,但實際上陽性樣本數量 陰性樣本數量 1000 100 將100資料複製10份,達到兩個樣本數量之比為1000 1000 將1000資料隨機抽取100份,達到兩個樣本數量之比為100 100 卷積神...

機器學習方法 機器學習中的優化方法

機器學習是離不開優化方法的,pedro domingos這樣概括機器學習和優化方法的關係 machine learning representation optimization evaluation 後面三項對應於三步 建立模型,求解模型,驗證模型。首先介紹一下機器學習中常見的優化問題 1.分類回...

機器學習的常用方法

什麼是機器學習 專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納 綜合而不是演繹。機器學習的常用方法 監督學習 非監督學習 半監督學習 強化...