重取樣技術
1、 隨機欠取樣
優點:它可以提公升執行時間;並且當訓練資料集很大時,可以通過減少樣本數量來解決儲存問題。
缺點:它會丟棄對構建規則分類器很重要的有價值的潛在資訊。被隨機欠取樣選取的樣本可能具有偏差。它不能準確代表大多數。從而在實際的測試資料集上得到不精確的結果。
2、 隨機過取樣
優點:與欠取樣不同,這種方法不會帶來資訊損失。表現優於欠取樣。
缺點:由於複製少數類事件,它加大了過擬合的可能性。
3、 基於聚類的過取樣(cluster-basedover sampling)
優點:這種聚類技術有助於克服類之間不平衡的挑戰。表示正例的樣本數量不同於表示反例的樣本數量。
有助於克服由不同子聚類組成的類之間的不平衡的挑戰。每乙個子聚類不包含相同數量的例項。
缺點:正如大多數過取樣技術,這一演算法的主要缺點是有可能過擬合訓練集。
4、 資訊性過取樣:合成少數類過取樣技術(smote)
優點:通過隨機取樣生成的合成樣本而非例項的副本,可以緩解過擬合的問題。
不會損失有價值資訊。
缺點:當生成合成性例項時,smote並不會把來自其他類的相鄰例項考慮進來。這導致了類重疊的增加,並會引入額外的噪音。
5、 改進的合成少數類過取樣技術(msmote)
資料增強(dataaugmentation)
不同的任務背景下, 我們可以通過影象的幾何變換, 使用以下一種或多種組合資料增強變換來增加輸入資料的量. 這裡具體的方法都來自數字影象處理的內容。
· 旋轉 | 反射變換(rotation/reflection):隨機旋轉影象一定角度; 改變影象內容的朝向;
· 翻轉變換(flip): 沿著水平或者垂直方向翻轉影象;
· 縮放變換(zoom): 按照一定的比例放大或者縮小影象;
· 平移變換(shift): 在影象平面上對影象以一定方式進行平移;
可以採用隨機或人為定義的方式指定平移範圍和平移步長, 沿水平或豎直方向進行平移. 改變影象內容的位置;
· 尺度變換(scale): 對影象按照指定的尺度因子, 進行放大或縮小; 或者參照sift特徵提取思想, 利用指定的尺度因子對影象濾波構造尺度空間. 改變影象內容的大小或模糊程度;
· 對比度變換(contrast): 在影象的hsv顏色空間,改變飽和度s和v亮度分量,保持色調h不變. 對每個畫素的s和v分量進行指數運算(指數因子在0.25到4之間), 增加光照變化;
· 雜訊擾動(noise): 對影象的每個畫素rgb進行隨機擾動, 常用的雜訊模式是椒鹽雜訊和高斯雜訊;
· 顏色變換(color): 在訓練集畫素值的rgb顏色空間進行pca, 得到rgb空間的3個主方向向量,3個特徵值, p1,p2, p3, λ1, λ2, λ3. 對每幅影象的每個畫素ixy=[irxy,igxy,ibxy]t進行加上如下的變化:
[p1,p2,p3][α1λ1,α2λ2,α3λ3]t
其中:αi是滿足均值為0,方差為0.1的隨機變數.
Revit資料處理要點(二)
這裡主要補充說明之前arcgis pro2.7 revit資料處理要點中提到的在autodesk revit 2018中調整專案基點座標到真實投影座標的情況。這裡介紹的我遇到的情況如下 1 在gis中有建模時候的向量基礎資料,就是一些點和線,其中,有乙個點為建模的基準點 標準點 也就是在建模人員在a...
機器學習 資料處理
又給我報keyerror date 錯誤,心態崩了 沒事,回到1170的錯誤,他的本意是我的資料型別不對,那麼我換個資料型別,並且限制他的長度,感謝這位小夥伴的分享 在to sql方法引數中dtype,將date列轉化為varchar d1111.to sql d1111 engine,if exi...
資料處理相關
資料集分為特徵值和目標值 由特徵值得到目標值 對特徵值的處理為特徵工程 1 缺失值處理 2 重複值的去重 特徵工程的意義 提高對未知資料的 字典特徵資料抽取 對字串轉成數字的,類 sklearn.feature extraction.dictvectorizer 文字特徵抽取 類 sklearn.f...