#-*- coding: utf-8 -*-
#概念:由於某些原因,導致資料中的某些列的值缺失,這種情況可能是正常的,也可能是不正常的。我們可以選擇不處理、補齊、或刪除對應的行
#dropna函式作用:去除資料結構中值為空的資料。
#dropna函式語法:dropna()
from pandas import read_csv
df = read_csv("d:/workspaces/python/pythonstudy/9.csv",encoding='utf-8')
#檢視匯入結果,可以看到有的列的值是空的nan
#有些情況,我們可能有這樣的需求:如果某個列的值是某個字串,那麼,我們也認為它是空的:
df = read_csv("d:/workspaces/python/pythonstudy/9.csv",
na_values=['null'])
#觀察得到的df物件,可以看到csv檔案中的null,讀取出來也是nan了
#找出空值的位置:
isna = df.isnull() #返回的是乙個資料框物件,元素值都是布林型別的
#獲取空值所在的行
df[isna.any(axis=1)] #只要某一行,有任意乙個值為空,就會返回該行,執行結果是乙個資料框,裡面都是包含空值的行
df[isna[['key']].any(axis=1)] #返回名稱為key的列存在空值的行
df[isna[['key','value']].any(axis=1)] #返回名稱為key或value的列存在空值的行(任意一列存在空值則返回)
#對空值進行填充:
df.fillna('未知')
#刪除包含空值的行
newdf = df.dropna()
資料處理 缺失值處理
資料缺失主要包括記錄缺失和字段資訊缺失等情況,其對資料分析會有較大影響,導致結果不確定性更加顯著 缺失值的處理 刪除記錄 資料插補 不處理 判斷是否有缺失值資料 isnull,notnull isnull 缺失值為true,非缺失值為false notnull 缺失值為false,非缺失值為true...
python,pandas缺失值資料處理
缺失值資料處理方式 1.資料補齊 2.刪除對應資料行 3.不處理 data.csv檔案內容 uft 8編碼 包含全世界所有國家需要用到的字元,英文 用的較多 gbk編碼 包含全部的中文字元 unicode編碼 把所有語言統一到一套編碼 df pd.read csv r c data data.csv...
插值法補齊缺失資料 資料處理 缺失值處理
此文圖方便,就直接輸入資料了。importpandas as pd df pd.dataframe 1缺失值處理 如何判斷缺失值 df.isnull isna df.notnull notna 1.1刪除法 dataframe.dropna axis 0,how any thresh none,su...