資料預處理之後,我們要做一些統計分析,來觀察我們的資料,這其中包括 描述性分析、統計推斷。
描述性分析:
主要是統計指標、圖表。
1、集中趨勢分析
除了分位數,我們還可以結合 中位數、眾數、平均數三者的關係。具體地:
眾數在中位數左側,平均數在中位數右側,則此時資料呈正偏態分布,又叫右偏,存在極大異常值。是不是可以考慮刪除或替換為平均值
眾數在中位數右側,平均數在左側,資料呈負偏態,左偏。可能存在極小異常值。
2、離散趨勢分析
有極差、四分差、方差和標準差。
極差受極值影響,四分差雖然掐頭去尾,但是丟失大量資料資訊。最常用的是方差和標準差。
3、分布情況的測度
偏態和峰度。
偏態係數sk,峰度看資料的扁平程度。
4、圖形分析
上面我們是看一些統計指標,可能不太直觀。
a、直方圖和密度函式圖
密度函式圖可以根據已知樣本估計樣本的密度函式曲線。
正偏態,右偏,有極大值。
b、qq圖
用來驗證資料是否某個分布,或者驗證兩組資料是否來自同乙個分布。
常用來驗證是否正態分佈。qq散點圖上的散點應該均勻地分布在qq直線兩側。
c、箱線圖
極大值、極小值、下四分位值、上四分位,加中位數。常用來看離群點。
d、多組資料分析
統計推斷:
兩步走,引數估計和假設檢驗。
點估計:
區間估計:
資料特徵分析 統計分析
統計分析是對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面分析。集中趨勢 指一組資料向某一中心靠攏的傾向,核心在於尋找資料的代表值或中心值 統計平均數 算數平均數和位置平均數 算術平均數 簡單算術平均數和權重算術平均數 位置平均數 中位數和眾數 離中趨勢 極差和分位差 標準差和方差 隨機生成整...
統計分析的體會
客戶給了一張基本的資料表,然後讓我做大量的計算,並且動態 靜態的做統計分析報表,經過了長達兩個月的苦戰,終於作完了。體會如下 1 一張存放中間統計結果的表是必要的,如果能夠將客戶的統計分析需要經過計算才能顯示的字段囊括在內是最好不過了,畢竟在查詢的過程中作計算是一件很討厭的事,雖然有資料冗餘,但是簡...
pandas的統計分析
import pandas as pd import numpy as np data pd.read excel meal order detail.xlsx print data n data print data 的列索引 n data.columns print data 的資料型別 n d...