資料探索 資料特徵分析

2021-10-05 13:57:35 字數 1528 閱讀 4299

對於資料的特徵分析是十分重要的,可以讓我們更加的了解資料的資訊,在下一步的資料分析、資料建模能幫助我們做出更好的決策。同時能給我們在解決問題上提供靈感。

資料特徵分析可以分為如下幾類

1.分布分析

2對比分析

3.統計量分析

4.週期性分析

5.貢獻度分析

6.相關度分析

下面我就來大致介紹一下上面六種特徵分析

分布分析:

分布分析要針對兩種型別的變數進行不同的處理。

對於定量變數而言,選擇」組數「和組寬是做頻率分布分析時最重要的問題,一般按照以下步驟進行。

1)求極差

2)決定組距和組數

3)決定分點

4)列出頻率分布表

5)繪製頻率分布直方圖

對於定性變數而言,常常根據變數的分類型別來分組,可以採用餅圖和條形圖來描述定性變數的分布。

對於定性變數和定量變數這裡做乙個接單介紹:

定性變數是統計學的概念,又名分類變數 ,觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測資料稱為定性變數。

定量變數 也就是通常所說的連續量,如長度、重量、產量、人口、速度和溫度等,它們是由測量或計數、統計所得到的量,這些變數具有數值特徵,稱為定量變數。

對比分析:

對比分析是指把兩個相互聯絡的指標進行比較,從數量上展示盒說明研究物件規模的大小,水平的高低,速度的快慢,以及各種關係是否協調。特別適用於指標間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合適的對比標準是十分關鍵的步驟,只有選擇合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結論。

對比分析主要有以下兩種形式

(1)絕對數比較

絕對數比較式利用絕對數進行對比,從而尋找差異的一種方法。

(2)相對數比較

相對數比較式由兩個有聯絡的指標對比計算的,用以反映客觀現象之間數量聯絡程度的綜合指標,其數值表現為相對數。由於研究目的和對比基礎不同,相對數可以分為以下幾種。

統計量分析:

用統計指針對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面分析。

集中趨勢度量指標

平均值,中位數,眾數

離中趨勢度量指標

極差,標準差,變異係數,四分位間距

週期性分析:

週期性分析是探索某個變數是否隨著時間變化而呈現出某種週期變化趨勢。時間尺度相對較長的週期性趨勢有年度週期性趨勢,季節週期性趨勢,相對較短的有月度週期性趨勢和周度週期性趨勢,甚至更短。

貢獻度分析:

貢獻度分析又稱帕累託分析,它的原理是帕累託法則,又稱20/80定律。同樣的投入放在不同的地方會產生不同的收益。

分析連續變數之間的現行相關程度的強弱,並用適當的統計指標表示出來的過程稱為相關分析。

可以繪圖分析,也可以計算一些衡量相關性的引數,如person係數,spearman秩相關係數。

這裡先大致介紹一下,以後我還會詳細介紹這部分內容。

資料探索 資料特徵分析

對於資料的特徵分析是十分重要的,可以讓我們更加的了解資料的資訊,在下一步的資料分析 資料建模能幫助我們做出更好的決策。同時能給我們在解決問題上提供靈感。資料特徵分析可以分為如下幾類 1.分布分析 2對比分析 3.統計量分析 4.週期性分析 5.貢獻度分析 6.相關度分析 下面我就來大致介紹一下上面六...

機器學習之資料探索 資料特徵分析(分布分析)

資料特徵分析與資料質量分析一道構成資料探索的兩方面工作,在前文中介紹過關於資料質量分析的概況,本文將對資料特徵分析作簡介,並著重於分布分析的角度,相比於資料質量分析,資料特徵分析更注重於找尋資料間的關係。資料特徵分析包括以下幾個分析角度 1 分布分析 2 對比分析 3 統計量分析 4 帕累託分析 5...

資料探索簡介 質量分析 特徵分析

此處參考 python資料分析和挖掘實戰 這本書 資料質量分析 主要是對異常值的分析 1 3 原則 如果資料符合正態分佈,那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3 之外的值出現的概率為p x 3 0.003,屬於極個別的小概率事件。但面對不服從正...