如果有乙個包含n個值的樣本x
ix_i
xi,那麼它們的均值μ
\muμ等於這些值總和除以值的數量:
μ =1
n∑ix
i\mu=\frac\sum_i
μ=n1i
∑xi
均值是為了描述集中趨勢,而方差則是描述分散情況。
一組值的方差為:
σ 2=
1n∑i
(xi−
μ)
2\sigma^2=\frac\sum_i(x_i-\mu)^2
σ2=n1
i∑(
xi−
μ)2
其中x i−
μx_i-\mu
xi−
μ叫做離均差(deviation from the mean),因此方差為該偏差的方均值。
資料的分布(distribution)描述了各個值出現的頻繁程度。
表現分布最常用的方法是直方圖(histogram),這種圖用於展示各個值出現的頻數或概率。
在python中,計算頻數最簡單方式就是用字典。給定乙個序列t
:
hist=
for x in t:
hist[x]
=hist.get(x,0)
+1
得到的結果是乙個將值對映到其頻數的字典。
例如,乙個序列t=[1,2,3,2,4,2,3,4,5,4,5,6,3,4]
,得到的結果為:
將得到的結果除以n
你,就可以把頻數轉換成概率你,這稱為歸一化
。
n=
float
(len
(t))
pmf=
for x,freq in hist.items(
): pmf[x]
=freq/n
歸一化之後的直方圖稱為pmf(probability mass functionn,概率質量函式),這個函式是值到其概率的對映。
直方圖可以非常直觀的展現資料的以下特徵:
眾數分布的形狀
異常值(outlier):遠離眾數的值
統計思維 程式設計師數學之概率統計(1)
第一章 經驗之談 觀察的數量太少 選擇偏差 確認偏差 不準確 更好的做法 統計方法 收集資料,使用大型全國性調查的資料 描述性統計,計算能總結資料的統計量 探索性資料分析,尋找模式 差異和其他能解決問題的而特徵 假設檢驗,評判影響是否真實 估計,樣本推斷整體 術語 經驗之談 個人隨意收集的證據 直觀...
讀書筆記 程式設計師的數學 概率統計
體會之前讀過程式設計師的數學 程式設計師的數學線性代數,這次就把程式設計師的數學 概率統計也看了。配上普林斯頓微積分讀本,算是把高數三件套都過了一遍。雖然說也上過一遍概率論,但又只剩下一些零碎的記憶了。這次看一遍這本概率統計,看看能不能撈回來一點。跟本科上課的教材相比,它的特點和之前寫過的這種數學入...
統計學條件概率 貝葉斯公式
1.分類加法計數原理場景 從甲地到乙地,可以乘火車 汽車 輪船。火車有 4 班 汽車 2 班 輪船 3 班,那麼一天中乘坐這些交通工具從甲地到乙地有多少種不同的走法?2.分步乘法計數原理場景 從 a 到 b 的道路有 3 條,從 b 到 c 的道路有 2 條,那麼從 a 到 b 到 c 總共有多少種...