DA0203 資料清洗 資料分析之EXCEL

2021-08-17 11:02:15 字數 951 閱讀 8009

快捷: ctrl + g ——定位條件——空值

null等值,使用ctrl + f查詢

2)處理缺失值

由於調查、編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。

估算(estimation)。最簡單的辦法就是用某個變數的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦法就是根據調查物件對其他問題的答案,通過變數之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查物件的家庭收入推算擁有這一產品的可能性。

整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的資料。因此,只適合關鍵變數缺失,或者含有無效值或缺失值的樣本比重很小的情況。

變數刪除(variable deletion)。如果某一變數的無效值和缺失值很多,而且該變數對於所研究的問題不是特別重要,則可以考慮將該變數刪除。這種做法減少了供分析用的變數數目,但沒有改變樣本量。

成對刪除(pairwise deletion)是用乙個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留資料集中的全部變數和樣本。但是,在具體計算時只採用有完整答案的樣本,因而不同的分析因涉及的變數不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了資料集中的可用資訊。

採用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現並非隨機且變數之間明顯相關時。因此,在調查中應當盡量避免出現無效值和缺失值,保證資料的完整性。(**網路)

3.    異常資料處理

重複和缺失資料處理後,對錶開啟篩選按鈕,觀察列的篩選字段是否有異常值,例如日期負數等,剔除或如上處理。

資料分析實戰之資料清洗

在資料分析過程中不論是時間還是功夫,資料清洗大概佔到了80 一 資料質量的準則 完全合一 1 完整性 單條字段是否存在空值,統計的字段是否完善 2 全面性 觀察某一列的全部數值,根據常識判斷該列是否有問題,比如 資料定義 單位標識 數值本身。3 合法性 資料的型別 內容 大小的合法性 4 唯一性 資...

Python資料分析之資料清洗

good data decides good analyse 資料清洗,是資料分析中不可缺少的乙個環節,其處理的好壞在很大程度上影響著資料分析的結果。而且以前聽老師說過資料清洗佔整個的資料分析的一半時間以上 汗。資料清洗也是乙個大學問啊 首先讀入檔案 我們可以看出有乙個nan,李四的數學成績也是不符...

資料清洗總結 python資料分析

匯入相應的庫和資料import numpy as np import pandas as pd import seaborn as sns read the data df pd.read csv sberbank.csv shape and data types of the data print...