資料特徵分析與資料質量分析一道構成資料探索的兩方面工作,在前文中介紹過關於資料質量分析的概況,本文將對資料特徵分析作簡介,並著重於分布分析的角度,相比於資料質量分析,資料特徵分析更注重於找尋資料間的關係。
資料特徵分析包括以下幾個分析角度:
1、分布分析
2、對比分析
3、統計量分析
4、帕累託分析
5、正態性檢驗
6、相關性分析
其上每乙個分析角度都有豐富的內容。
顧名思義,分布分析研究資料的分布特徵和分布型別。對於定量資料,需要了解分布形式,發現某些特大特小的異常值,通常用到散點圖,頻率分布直方圖,莖葉圖等;對於定性資料,可用餅圖或和條形圖顯示分布情況。
1 定量資料
對於定量資料列,可以從以下步驟獲取其分布形式
1 求極差
2 求適當的分組區間
3 計算各組頻率
4 繪製頻率分布直方圖
當然對於python而言,可以使用內建方法直接將輸入的資料轉換為直方圖:
將資料轉為dataframe形式,對其中某一列使用hist()方法,該函式的引數為需要的分組數,可以手動調至合適的分組數。
2 定性資料
對於定性資料,一般可以使用餅圖展示其分布狀況:
3 counter函式
上面提到繪製餅圖的資料是需要頻數統計處理的,那麼就需要了解python庫函式counter,可以用它方便地進行頻數統計:
資料探索 資料特徵分析
對於資料的特徵分析是十分重要的,可以讓我們更加的了解資料的資訊,在下一步的資料分析 資料建模能幫助我們做出更好的決策。同時能給我們在解決問題上提供靈感。資料特徵分析可以分為如下幾類 1.分布分析 2對比分析 3.統計量分析 4.週期性分析 5.貢獻度分析 6.相關度分析 下面我就來大致介紹一下上面六...
資料探索 資料特徵分析
對於資料的特徵分析是十分重要的,可以讓我們更加的了解資料的資訊,在下一步的資料分析 資料建模能幫助我們做出更好的決策。同時能給我們在解決問題上提供靈感。資料特徵分析可以分為如下幾類 1.分布分析 2對比分析 3.統計量分析 4.週期性分析 5.貢獻度分析 6.相關度分析 下面我就來大致介紹一下上面六...
資料探索簡介 質量分析 特徵分析
此處參考 python資料分析和挖掘實戰 這本書 資料質量分析 主要是對異常值的分析 1 3 原則 如果資料符合正態分佈,那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3 之外的值出現的概率為p x 3 0.003,屬於極個別的小概率事件。但面對不服從正...