資料離中趨勢分析
資料的分布分析
資料集中趨勢分析是為了衡量資料的集中程度,常用的集中趨勢衡量指標包括資料的平均值、中位數、眾數和分位數。平均值和中位數多作為連續資料的衡量指標,眾數多作為離散資料的衡量指標。
python實現。
import pandas as pd
import numpy as np
df = pd.
dataframe
(np.random.
randint(1
,100
,100).
reshape((
25,4)
))df.mean
(axis =
0) #計算每列的平均值
df.mean
(axis =
1) # 計算每行的平均值
中位數是按順序排列的一組資料中位於中間位置的那個數,當資料個數為奇數時,中位數即為正中間的那個數,當資料個數為偶數時,中位數即為中間兩個數的平均值,python實現如下:
import pandas as pd
import numpy as np
df = pd.
dataframe
(np.random.
randint(1
,100
,100).
reshape((
25,4)
))df.median
(axis =
0) # 計算每列的中位數
df.median
(axis =
1) # 計算每行的中位數
眾數是一組資料**現次數最多的數值,代表該組資料的集中趨勢點,一組資料中的眾數可能有多個。python實現如下:
import pandas as pd
import numpy as np
df = pd.
dataframe
(np.random.
randint(1
,100
,100).
reshape((
25,4)
))df.mode
(axis =
0) # 計算每列的眾數
df.mode
(axis =
1) # 計算每行的眾數
分位數也稱為分位點,即對一組資料進行從到大小排列後,按照該組資料的分布範圍進行等分,一般最常用的是進行四等分,處於25%位置的數字稱為下四分位數,處於50%位置的數字稱為中位數,處於75%位置的數字稱為上四分位數。python實現如下:
import pandas as pd
import numpy as np
df = pd.
dataframe
(np.random.
randint(1
,100
,100).
reshape((
25,4)
))df.quantile
(axis =
0,q =
0.25
) # 計算每列的下四分位數
df.quantile
(axis =
1,q =
0.25
) # 計算每行的下四分位數
資料的離中趨勢用來衡量資料的離散程度,常用的衡量指標有標準差和方差。
式中: μ為算術平均值,σ為標準差。
python實現如下:
df = pd.
dataframe
(np.random.
randint(1
,100
,100).
reshape((
25,4)
))df.std
(axis =
0) # 計算每列的標準差
df.std
(axis =
1) # 計算每行的標準差
式中:s2為方差,μ為算術平均值。
python實現如下:
df = pd.
dataframe
(np.random.
randint(1
,100
,100).
reshape((
25,4)
))df.var
(axis =
0) # 計算每列的方差
df.var
(axis =
1) # 計算每行的方差
式中:μ為算術平均值,σ為標準差
python實現如下:
import scipy.stats as ss
norm_sample = ss.
norm(0
,1) #建立均值為0,標準差為1的正態分佈
norm_sample.
pdf([0
,2,-
2]) # 概率密度計算函式
norm_sample.
cdf([0
,2,-
2]) # 累積分布概率計算函式
norm_sample.
ppf(
[0.9
,0.95
,0.98
]) # 累積分布概率計算反函式
式中:n為自由度,γ(x)表示伽馬函式。
python實現如下:
import scipy.stats as ss
norm_sample = ss.
chi2(3
) #建立自由度為3的卡方分布
norm_sample.
pdf([0
,2,10
]) # 概率密度計算函式
norm_sample.
cdf([0
,2,10e5
]) # 累積分布概率計算函式
norm_sample.
ppf(
[0.9
,0.95
,0.98
]) # 累積分布概率計算反函式
式中:n為自由度,γ(x)表示伽馬函式。
python實現如下:
import scipy.stats as ss
norm_sample = ss.t(
3) #建立自由度為3的t分布
norm_sample.
pdf([0
,2,-
2]) # 概率密度計算函式
norm_sample.
cdf([0
,2,-
2]) # 累積分布概率計算函式
norm_sample.
ppf(
[0.9
,0.95
,0.98
]) # 累積分布概率計算反函式
式中:m和n為自由度,γ(x)表示伽馬函式。
python實現如下:
import scipy.stats as ss
norm_sample = ss.f(
4,3) #建立自由度,
4和3的f分布
norm_sample.
pdf(
[0.1,2
,10]) # 概率密度計算函式
norm_sample.
cdf(
[0.1,2
,10e5
]) # 累積分布概率計算函式
norm_sample.
ppf(
[0.9
,0.95
,0.98
]) # 累積分布概率計算反函式
by cyrusmay 2020 04 07「你問我全世界是**最美,答案是你身邊」——————***—————— hive簡單資料分析
select brand id from user log limit 10 檢視日誌前10資料好像也沒啥,和sql相同,limit取前多少條 as取別名 count 聚合函式 select count from user log 用聚合函式count 計算出表內有多少條行資料 distinct不重...
Python 簡單資料型別
數字 整數 int,long 整數在3版本沒有大小長度分別,記憶體決定整數最大長度 浮點數 float 無窮小數會做精度處理,四捨五入,只要有小數點就是浮點型 布林 bool 非空 none 非0為真,0或空為假 複數 complex 複數的標誌為虛部以大寫 j 或小寫 j 結尾 字串 表達方式 單...
PYTHON的簡單資料型別
一丶資料 除法運算獲得的結果是乙個浮點型別的資料 與c語言的資料型別不一樣,在python中可以定義乙個無限大的資料 記憶體夠大的情況下 二丶bool資料型別 非空非零即為真 三丶字串資料型別 eg str hello world!與 str hello world 是一樣的,可以根據索引進行切片操...