資料丟失處理方法

2021-07-04 05:30:16 字數 376 閱讀 1012

訓練資料中樣本特徵值的部分缺失是很棘手的問題,很多文獻致力於解決該問題,因為資料直接丟掉太可惜,重新獲取代價也昂貴。一些可選的資料丟失處理方法包括:

1、使用可用特徵的均值來填補缺失值;

2、使用特殊值來

±真補缺失值,如

-1;3、忽略有缺失值的樣本;

4、使用相似樣本的均值添補缺失值;

5、使用另外的機器學習演算法**缺失值。

6、把變數對映到高維空間。比如性別,有男、女、缺失三種情況,則對映成3個變數:是否男、是否女、是否缺失。連續性變數也可以這樣處理。這樣做的好處是完整保留了原始資料的全部資訊、不要考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提公升,而且只有在樣本量很大的時候效果才好,否則會因為過於稀疏,效果較差。

pandas處理丟失資料

有兩種丟失資料的方式 none np.nan nan 1,none none是python當中自帶的,型別為python object,所以,none是不能參與到任何的計算當中的 2,np.nan np.nan是浮點型別,能參與到計算當中,但是計算的結果為nan pandas中none與np.nan...

Pandas處理丟失資料

pandas處理丟失資料 1 建立含nan的矩陣 dates pd.date range 20130101 periods 6 df pd.dataframe np.arange 24 reshape 6,4 index dates,columns a b c d df.iloc 0,1 np.na...

pandas處理丟失資料

pandas將none和nan視為可交換的,它們都可以用來指示丟失的資料。none可以代替丟失值 哨兵值 並不適合所有情況,只能用於陣列的型別為物件的情況。none會導致一些聚合操作,比如sum 和min 會報錯。nan 代替丟失值 另外一中哨兵值 一種特殊的浮點型資料,不管什麼操作,只要有nan,...