Python資料分析之資料清洗

2021-09-20 01:07:29 字數 1609 閱讀 5531

good data decides good analyse

資料清洗,是資料分析中不可缺少的乙個環節,其處理的好壞在很大程度上影響著資料分析的結果。而且以前聽老師說過資料清洗佔整個的資料分析的一半時間以上(汗。。。資料清洗也是乙個大學問啊)。

首先讀入檔案:

我們可以看出有乙個nan,李四的數學成績也是不符合常理的。我們通過isnull函式檢視資料的空缺值:

通過下面命令計算每列資料的空缺值:

對於不符合常理的資料也可進行設定為空缺值:

test1.數學[test1.數學.notnull()]

加入all引數的意思:行全為nan才會drop掉。

前乙個值填充:

後乙個值填充:

test1.fillna(method='bfill')
用列的均值填充:

等距填充:

test1.interpolate()

資料分析實戰之資料清洗

在資料分析過程中不論是時間還是功夫,資料清洗大概佔到了80 一 資料質量的準則 完全合一 1 完整性 單條字段是否存在空值,統計的字段是否完善 2 全面性 觀察某一列的全部數值,根據常識判斷該列是否有問題,比如 資料定義 單位標識 數值本身。3 合法性 資料的型別 內容 大小的合法性 4 唯一性 資...

資料清洗總結 python資料分析

匯入相應的庫和資料import numpy as np import pandas as pd import seaborn as sns read the data df pd.read csv sberbank.csv shape and data types of the data print...

DA0203 資料清洗 資料分析之EXCEL

快捷 ctrl g 定位條件 空值 null等值,使用ctrl f查詢 2 處理缺失值 由於調查 編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有 估算,整例刪除,變數刪除和成對刪除。估算 estimation 最簡單的辦法就是用某個變數的樣本均值 中位數或眾數...