一 資料探索
資料探索的目的是及早的發現資料的一些簡單規律或特徵,資料清洗的目的是留下可靠的資料,避免髒資料的干擾.
資料探索的核心是:
資料質量分析(跟資料清洗密切聯絡)
資料特徵分析(分布,對比,週期性,相關性,常見統計量等)
二 資料清洗
資料清洗可以按如下步驟進行
缺失值處理(通過describe與len發現,通過0資料發現)
異常值處理(通過散點圖發現)
異常值處理(通過散點圖發現)
缺失值,處理方式為(刪除,插補,不處理);
插補的方式主要有:均值插補,中位數插補,眾數插補,固定值插補,最近資料插補,回歸插補,拉格朗日插值,牛頓插值法,分段插值等等.
遇到異常值,一般處理方式為視為缺失值,刪除,修補(平均數,中位數等),不處理.
插補法處理(中位數)
# coding=utf-8
import pandas as pd
import numpy as np
data = pd.read_csv("taobao.csv")
print(data.describe())
結果為:
由輸出結果可知price和comment的均值,標準差,最大值,各個中位數,最大值,且從圖中知**為0的資料是有問題的,接下來我們對其進行處理.
data["price"][(data["price"] == 0)] = none # 把**為0的資料用none代替
# 把**為none的資料用中位數進行插補
for i in data.columns:
for j in range(len(data)):
if(data[i].isnull())[j]:
data[i][j] = 36
缺失值處理後的資料描述為:
print(data.describe())
結果為:
異常值的處理(中位數)
import matplotlib.pylab as plt
price = data.iloc[:, 2]
comt = data.iloc[:, 3]
plt.plot(price, comt, "o")
plt.show()
輸出結果為:
line = data.shape[0] # data的行數
column = data.shape[1] # data的列數
da = data.values
for i in range(line):
for j in range(column):
if (da[i][2] > 2000):
da[i][j] = 36
if (da[i][3]) > 200000:
da[i][j] = 58
異常點處理後的散點圖:
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
excel資料清洗 資料清洗excel
資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...
資料清洗技術 Excel資料清洗
1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...