資料處理之重複值,缺失值,空格值的處理

2021-08-28 04:44:04 字數 765 閱讀 2065

去除重複值在python中主要是用drop_duplicates()函式,接下來做個小示範( 這邊是我的檔案路徑,如果你想實現此功能需要輸入自己的檔案路徑):

# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_csv(r'/users/herenyi/downloads/4/4.3/data.csv', encoding = 'utf-8')

newdf = df.drop_duplicates()

呼叫一下就完事了,是不是很簡單。

缺失值主要是資料樣本某些資訊被遺漏和沒遺漏但是這些資料無法獲取,比如未成年人再被問到收入的情況下。

缺失值的處理一般分以下三步,應該根據具體業務來驅動選取何種處理方法:

缺失值處理的主要函式是dropna()函式,具體用法如下

df = pd.read_csv(r'/users/herenyi/downloads/4/4.4/data.csv', encoding = 'utf-8');

newdf = df.dropna()

有時候我們會發現欄位間的空格不一致,為了規整資料可以使用strip()函式來刪除字段兩邊的空格,str()

df = pd.read_csv(r'/users/herenyi/downloads/4/4.5/data.csv')

df = df['name'].str.strip();

重複值和缺失值和空格值的處理

重複值處理 from pandas import read csv ak read csv d python projects reference data 找出重複的位置 al ak.duplicated 根據某些列判斷是否重複 ao ak.duplicated id ai ak.duplicat...

資料處理之缺失值處理

coding utf 8 概念 由於某些原因,導致資料中的某些列的值缺失,這種情況可能是正常的,也可能是不正常的。我們可以選擇不處理 補齊 或刪除對應的行 dropna函式作用 去除資料結構中值為空的資料。dropna函式語法 dropna from pandas import read csv d...

資料處理 缺失值處理

資料缺失主要包括記錄缺失和字段資訊缺失等情況,其對資料分析會有較大影響,導致結果不確定性更加顯著 缺失值的處理 刪除記錄 資料插補 不處理 判斷是否有缺失值資料 isnull,notnull isnull 缺失值為true,非缺失值為false notnull 缺失值為false,非缺失值為true...