此處參考《python資料分析和挖掘實戰》這本書
資料質量分析:
主要是對異常值的分析:
1、3σ原則:如果資料符合正態分佈,那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3σ之外的值出現的概率為p(|x-μ|>3σ)≤0.003,屬於極個別的小概率事件。但面對不服從正態分佈的資料,應該怎麼辦呢?
2、箱型圖法:該方法具有很大的魯棒性:多達25%的資料可以離得非常遠而不影響四分位數。異常值被定義為》q_u+1.5iqr或者在python中,data.describe()方法可獲得箱型圖法的大部分資料。直接給出樣本資料的一些基本統計量,包括均值、標準差、最大值、最小值、分位數等,如下輸出。
其他資料質量分析還包括對缺失值分析、一致性分析。
資料特徵分析:
分布分析:極差分組、頻率分布直方圖(餅狀圖)
統計量分析:平均水平的指標(個體集中趨勢):均值、中位數;變異程度(個體離開平均水平度量):標準差(方差)、四分位間距
週期性分析:週期性規律
貢獻度分析:二八原則—20%的人決定80%的價值
偷點懶直接截圖了。
相對於統計函式則簡單得多,pandas內部含有計算資料樣本的spearman(pearson)相關係數矩陣的函式corr(),d.corr(method=』pearson』),其中樣本d可為dataframe,返回相關係數矩陣,method引數為計算方法,支援pearson(default)、kendall、spearman。
還包括d.sum()按列求和、d.std()、d.mean()、d.var()方差、d.cov()其中d均可為dataframe或series
視覺化函式:
主要是matplotlib和pandas函式。
函式plot:需要注意plt.plot(x,y,s)這是matplotlib裡面的,d.plot(kind=』box』)這是pandas裡面的,kind還可以為line(線)、bar(條形)、barh、hist(直方圖)、box(箱線圖)、kde(密度圖)、area、pie(餅圖)。
函式pie:plt.pie(size) 其中size為所佔比例
函式hist:plt.hist(x,y) x為待繪製直方圖的一維陣列,y可以為整數表示均勻分為n組
其他對於pandas呼叫均採用d.***(),d可為dataframe或者series。
資料質量分析和特徵分析
1.資料質量分析包括缺失值分析,異常值分析 1.1資料質量分析之異常值分析 資料質量驗證最常用的方法是最大值和最小值,用來判斷這個變數的範圍是否超出了合理區間。如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,在正態分佈的假設下距離平均值3 之外的值出現...
資料探索之資料質量分析
資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般指的是不符合要求,以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現,而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下,資料的質量分析與資料清洗是相伴而行的,在分析出髒資料的時候伴隨著資料的清洗。常見的髒資料報括如下 ...
資料探索 一 之資料質量分析
資料質量分析的主要任務是檢查原始資料中是否存在髒資料。髒資料一般是指不符合要求以及不能直接就行應用分析的資料。髒資料報括 缺失值 異常值 不一致的值 重複資料以及含有特殊符號 的資料。缺失值是指某個記錄的缺失或者記錄中的某個字段資訊的缺失,如某小區居住人員資訊統計資料中的某些居民資料的缺失或者某位居...