特徵資料預處理
####缺失值處理
缺失值處理
填充缺失值
真值轉化 承認缺失值存在 他就是正常的一部分 比如性別 就是男 女 未知
不處理 有些模型對於缺失值就與容忍度的模型:knn 決策樹 隨機森林 神經網路 樸素貝葉斯 knn模型缺失值不參與距離計算
缺失值的處理套路 找到缺失值後分析樣本檢視佔比 選擇合適的方式處理缺失值
-異常值處理(極大值極小值)
重複值的處理
對資料進行清洗
異常值處理
dataframe.mean() 計算平均值
dataframe.std() 計算標準差
判斷異常值
資料去重
dataframe.duplicated() 判斷重複資料記錄
dataframe.drop_duplicates() 刪除資料記錄所有列值相同的記錄
####數值型資料的處理
如果是樹模型就不用了 線性回歸和邏輯回歸就要用了標準化和歸一化 樹模型不用是因為人家要比較大小的(基本)就像五十個人和馬雲比 他工資無線趨近1 剩下的人無線趨近0
####離散化/分箱/分桶
常見的離散化場景
二值比 很多場景下 需要用二值比:每個資料點跟閾值比較 大於閾值設定為某一固定值(比如1) 小於閾值(0) 就跟二進位制一樣
數值型資料進行分組 這就是離散化 也算是對連續資料進行分組
####量
####樣本分佈不均勻
分布不均勻的場景
樣本不均衡的問題
總體上,過抽樣和欠抽樣更適合大資料分布不均衡的情況,尤其是過抽樣方法,應用極為廣泛。
正負樣本的懲罰權重:在演算法實現過程中,對於分類中不同樣本數量的類別分別賦予不同的權重(一般思路分類中的小樣本量類別權重高,大樣本量類別權重低),然後進行計算和建模。
組合/整合:每次生成訓練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取資料來與小樣本量合併構成訓練集,這樣反覆多次會得到很多訓練集和訓練模型。最後在應用時,使用組合方法(例如投票、加權投票等)產生分類**結果。
####資料抽樣
抽樣意義
如何抽樣
概率 等距抽樣 是多有的樣本排序 按照隔多少 在取多少 也是 適用於個體分布均勻或者明顯的均勻分布規律 無明顯趣事或者週期性規律的資料 總體樣本的分布呈現明顯的分布規律時容易產生偏差 例如增減趨勢 週期性規律
抽取資料幾個問題
抽樣樣本能滿足資料分析和建模需求
抽樣樣本不同類別中的分布問題
異常檢測類的資料處理
pandas 資料處理
pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...
Pandas資料處理
資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...