pandas將none和nan視為可交換的,它們都可以用來指示丟失的資料。
none可以代替丟失值(哨兵值)並不適合所有情況,只能用於陣列的型別為物件的情況。 none會導致一些聚合操作,比如sum()
和min()
會報錯。
nan 代替丟失值(另外一中哨兵值)一種特殊的浮點型資料,不管什麼操作,只要有nan,結果都為nan(聚合操作能進行,但結果都是nan)
numpy提供了一些函式用於聚合運算,可以忽略掉丟失的資料: np.nansum(陣列) np.nanmin(陣列) np.nanmax(陣列)
pandas中的none和nan
none和nan在pandas有其獨特的地位,pandas同時支援它們,並可以相互轉換。
針對null值的操作
陣列.isnull():用於建立掩碼陣列
陣列.notnull():isnull()的反操作
陣列.dropna(): 返回過濾後的資料
陣列.fillna(): 返回填充後的資料
檢測null值
陣列.isnull()可用於檢查null值,返回乙個布林值陣列 true為nan false為有資料
陣列.notnull()函式跟isnull()函式相反,可用於檢查null值,返回乙個布林值陣列:false返回nan true返回有資料
刪除null值
陣列.dropna()來刪除na值(刪除空值)(預設刪行)
在dataframe中無法刪除單個的值,只能刪除(有nan)整行或者整列資料。
以通過thresh
來指定最少保留多少個非na值。
填充null值
陣列.fillna()方法,把nan填充成其他的值(或指定的值)。
pandas處理丟失資料
有兩種丟失資料的方式 none np.nan nan 1,none none是python當中自帶的,型別為python object,所以,none是不能參與到任何的計算當中的 2,np.nan np.nan是浮點型別,能參與到計算當中,但是計算的結果為nan pandas中none與np.nan...
Pandas處理丟失資料
pandas處理丟失資料 1 建立含nan的矩陣 dates pd.date range 20130101 periods 6 df pd.dataframe np.arange 24 reshape 6,4 index dates,columns a b c d df.iloc 0,1 np.na...
Pandas處理丟失資料
dates pd.date range 20130101 periods 6 df pd.dataframe np.arange 24 reshape 6,4 index dates,columns a b c d df.iloc 0,1 np.nan df.iloc 1,2 np.nan prin...