解決非平衡的資料處理方式

2021-08-20 01:24:30 字數 608 閱讀 5684

由於在實際運用中,對於分類問題中,因變數時存在很大地差距的,對應的比列嚴重失調。因為非類的樣本畢竟在真實情況下所佔的比例時很小的一塊。

對於資料嚴重有偏的,對應的**的結果也是有偏的,因此對應的分類結果很大程度地偏向較多觀測樣本的類別。因此,我們在這裡需要很大程度的去構造出 1 : 1的資料比例。如果直接使用 過取樣 的處理方式, 這樣放回的樣本是之前資料的簡單的擬合,因此在這裡是會出現模型的過擬合的情況;如果直接採用 欠取樣 的處理方式,這樣就會導致對應的 正樣本 中間的資料被砍掉了很大的一部分,會導致某些資訊的丟失。

smote 演算法是採用 對於少類的資料樣本進行分析和模擬,將人工模擬出來的資料新增到對應的資料集中間去,進而使得原始的資料集中的類別變得不再嚴重失衡,從而原始資料集中的類別不再會嚴重失衡。

使用的演算法是 knn 演算法:

先算出少類樣本的k個近鄰

從k個近鄰中間挑選出 n 個樣本進行線性插值,因此構造出少類的樣本

和原資料集混合,構建新的資料集

這個處理的方式在 imblearn 的 over_sampling 中的 smote 中被實現,具體的查詢官方文件

直接使用 smote.fit()對應的資料集,能夠實現缺失資訊變成 1: 1的處理,改變aoc資料。

SpringMVC 五 資料處理方式

1.提交的是引數 1.1 提交的網域名稱稱和處理方法的引數名一致 1.2 提交的網域名稱稱和處理方法的引數名不一致 2.提交的是乙個物件 1.通過modelandview 只有控制器實現介面時,才用modelandview public class controllertest implements...

xgboost 資料不平衡處理方式

在對不平衡資料進行訓練時,通常會考慮一下怎麼處理不平衡資料能使訓練出來的結果較好。能想到的比較基礎的方法是過取樣和下取樣來緩解資料中的正負樣本比。在用xgboost訓練二分類模型時,除了直接使用過取樣和下取樣,xgboost介面還提供一些處理不平衡資料的方法,有scale pos weight引數的...

如何更好的使用VUE之資料處理方式

qq群 602504799 如若有不理解的,可加qq群進行諮詢了解 在我前端工作之前,在處理資料的時候,我經常在想如何更好的處理資料,對資料的可空性更高,更好的變換。其實這個也不是什麼技術要點,只是在開發的時候,更加如意,特別在修改的是也方便。我的思路是,基礎資料是不容改變的。然後通過其它的方式來進...