在人工採集資料時,經常有可能把空值和空格混在一起,一般也注意不到在本來為空的單元格裡加入了空格。這就給做資料處理的人帶來了麻煩,因為空值和空格都是代表的無資料,而pandas中series的方法notnull()會把有空格的資料也納入進來,這樣就不能完整地得到我們想要的資料了,這裡給出乙個簡單的方法處理該問題。既然我們認為空值和空格都代表無資料,那麼可以先得到這兩種情況下的布林陣列。
這裡,我們的dataframe型別的資料集為df,其中有乙個變數vin,那麼取得空值和空格的布林陣列為none_vin。然後通過該布林陣列,就能得到我們要的資料了。
df_null = df[none_vin]
df_not_null = df[~none_vin]
df_null = df[df["vin"].isnull()]
df_not_null = df[df["vin"].notnull()]
方法1的思路就是直接判定是否為空格,把空格納入到選擇中來。方法2的思路是先把空格轉換為nan,然後正常使用.isnull()或.notnull()來得到我們想要的資料
python pandas處理空值與缺失值問題
空值與缺失值問題 df.info info檢視資料是否為空,有多少的空值,或者缺失值如果小於10 直接刪除,否則另作考慮 一 空值與缺失值 空值 在pandas中是 缺失值 在dataframe中為nan或者nat 缺失時間 在series中為none或者nan df.dropna axis 0,h...
Python pandas,建立Series型別
numpy只能處理數值型別的資料。pandas除了可以處理數值型別外,還可以處理非數值型別的資料 例如 字串 時間序列等 pandas常用的資料型別 series 一維,帶標籤的陣列,對應資料庫中的一條記錄 dataframe 二維,series容器,對應資料庫中的表 demo.py series的...
python pandas使用記錄
在使用numpy中array格式的矩陣時,我們通常使用如a 2 4,5 10 獲取陣列中一部分資料,但是dataframe結構的陣列就不能這麼寫,可以使用iloc方法,即index locate,另外有個相似的方法loc,這個方法是通過column名字進行資料定位的 import pandas as...