作用:資料預處理的前提,也是資料挖分析結論有效性和準確性的基礎。
主要任務:檢查原始資料中是否存在髒資料(不符合要求,以及不能直接進行相應分析的資料。如缺失值、異常值、不一致的值、重複資料及含有特殊符號的資料)
一、缺失值分析:
產生原因:
缺失值 影響:
缺失值的分析:
缺失值的處理:
二、異常值分析:異常值是指樣本中的個別值,其數值明顯偏離其餘的觀測值。異常值也稱為離群點,異常值的資料分析也稱為離群點分析。
分析方法:
三、一致性分析:資料不一致性是指資料的矛盾性、不相容性。直接對不一致的資料進行挖掘,可能會產生與實際相違背的挖掘結果。不一致的資料主要發生在資料整合過程中,這可能
四、相關函式
1.describe()函式
庫:pandas
功能:檢視資料基本情況
例項:
執行結果import pandas as pd
catering_sale = 'data/catering_sale.xls' # 餐飲資料
# 讀取資料,指定「日期」為索引列
data = pd.read_excel(catering_sale, index_col=u'日期')
print(data.describe())
2.箱型圖 boxplot()銷量
count 200.000000 非空數值
mean 2755.214700 平均值
std 751.029772 標準差
min 22.000000 最小值
25% 2451.975000 1/4分位數
50% 2655.850000 1/2分位數
75% 3026.125000 3/4分位數
max 9106.440000 最大值
庫:matplotlib
功能:檢視異常值
例項:
執行結果#-*- coding: utf-8 -*-
import pandas as pd
catering_sale = 'data/catering_sale.xls' #餐飲資料
data = pd.read_excel(catering_sale, index_col = u'日期') #讀取資料,指定「日期」列為索引列
import matplotlib.pyplot as plt #匯入影象庫
plt.rcparams['font.sans-serif'] = ['simhei'] #用來正常顯示中文標籤
plt.rcparams['axes.unicode_minus'] = false #用來正常顯示負號
plt.figure() #建立影象
p = data.boxplot(return_type='dict') #畫箱線圖,直接使用dataframe的方法
x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標籤
y = p['fliers'][0].get_ydata()
y.sort() #從小到大排序,該方法直接改變原物件
#用annotate新增注釋
#其中有些相近的點,註解會出現重疊,難以看清,需要一些技巧來控制。
#以下引數都是經過除錯的,需要具體問題具體除錯。
for i in range(len(x)):
if i>0:
plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
else:
plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
plt.show() #展示箱線圖
資料分析與挖掘(二)資料探索
資料質量分析的首要任務就是檢查原始資料中是否存在髒資料,一般是指不合規的資料。其中包括 缺失值,異常值,不一致的值 1 缺失值產生的原因 有些資訊無法獲取,或者資訊的代價太大。2 缺失值的影響 資料探勘建模將丟失大量有用的資訊,不確定性會顯著增強,包含空值的資料會使建模過程更加混亂,導致不可靠的輸出...
資料分析與資料探勘
一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...
資料分析與資料探勘
資料分析是指採用適當的統計分析方法對收集到的資料進行分析 概括和總結,對資料進行恰當的描述,並提取出有用的資訊的過程。資料探勘是指從海量的資料中通過相關的演算法發現隱藏在資料中的規律和知識的過程。知識發現的過程如下。1.資料清理 清除資料中的雜訊。3.資料選擇 從資料庫中選擇與任務有關的資料。4.資...