資料探索與資料清洗

2021-09-10 04:43:44 字數 1946 閱讀 8171

一 資料探索

資料探索的目的是及早的發現資料的一些簡單規律或特徵,資料清洗的目的是留下可靠的資料,避免髒資料的干擾.

資料探索的核心是:

資料質量分析(跟資料清洗密切聯絡)

資料特徵分析(分布,對比,週期性,相關性,常見統計量等)

二 資料清洗

資料清洗可以按如下步驟進行

缺失值處理(通過describe與len發現,通過0資料發現)

異常值處理(通過散點圖發現)

異常值處理(通過散點圖發現)

缺失值,處理方式為(刪除,插補,不處理);

插補的方式主要有:均值插補,中位數插補,眾數插補,固定值插補,最近資料插補,回歸插補,拉格朗日插值,牛頓插值法,分段插值等等.

遇到異常值,一般處理方式為視為缺失值,刪除,修補(平均數,中位數等),不處理.

插補法處理(中位數)

# coding=utf-8

import pandas as pd

import numpy as np

data = pd.read_csv("taobao.csv")

print(data.describe())

結果為:

由輸出結果可知price和comment的均值,標準差,最大值,各個中位數,最大值,且從圖中知**為0的資料是有問題的,接下來我們對其進行處理.

data["price"][(data["price"] == 0)] = none  # 把**為0的資料用none代替

# 把**為none的資料用中位數進行插補

for i in data.columns:

for j in range(len(data)):

if(data[i].isnull())[j]:

data[i][j] = 36

缺失值處理後的資料描述為:

print(data.describe())
結果為:

異常值的處理(中位數)

import matplotlib.pylab as plt

price = data.iloc[:, 2]

comt = data.iloc[:, 3]

plt.plot(price, comt, "o")

plt.show()

輸出結果為:

line = data.shape[0] # data的行數

column = data.shape[1] # data的列數

da = data.values

for i in range(line):

for j in range(column):

if (da[i][2] > 2000):

da[i][j] = 36

if (da[i][3]) > 200000:

da[i][j] = 58

異常點處理後的散點圖:

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...

資料清洗技術 Excel資料清洗

1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...