《統計思維 程式設計師數學之概率統計》學習筆記

2021-09-10 15:26:50 字數 1200 閱讀 8178

如果有乙個包含n個值的樣本x

ix_i

xi​,那麼它們的均值μ

\muμ等於這些值總和除以值的數量:

μ =1

n∑ix

i\mu=\frac\sum_i

μ=n1​i

∑​xi

均值是為了描述集中趨勢,而方差則是描述分散情況。

一組值的方差為:

σ 2=

1n∑i

(xi−

μ)

2\sigma^2=\frac\sum_i(x_i-\mu)^2

σ2=n1​

i∑​(

xi​−

μ)2

其中x i−

μx_i-\mu

xi​−

μ叫做離均差(deviation from the mean),因此方差為該偏差的方均值。

資料的分布(distribution)描述了各個值出現的頻繁程度。

表現分布最常用的方法是直方圖(histogram),這種圖用於展示各個值出現的頻數或概率。

在python中,計算頻數最簡單方式就是用字典。給定乙個序列t:

hist=

for x in t:

hist[x]

=hist.get(x,0)

+1

得到的結果是乙個將值對映到其頻數的字典。

例如,乙個序列t=[1,2,3,2,4,2,3,4,5,4,5,6,3,4],得到的結果為:

將得到的結果除以n你,就可以把頻數轉換成概率你,這稱為歸一化

n=

float

(len

(t))

pmf=

for x,freq in hist.items(

): pmf[x]

=freq/n

歸一化之後的直方圖稱為pmf(probability mass functionn,概率質量函式),這個函式是值到其概率的對映

直方圖可以非常直觀的展現資料的以下特徵:

眾數分布的形狀

異常值(outlier):遠離眾數的值

統計思維 程式設計師數學之概率統計(1)

第一章 經驗之談 觀察的數量太少 選擇偏差 確認偏差 不準確 更好的做法 統計方法 收集資料,使用大型全國性調查的資料 描述性統計,計算能總結資料的統計量 探索性資料分析,尋找模式 差異和其他能解決問題的而特徵 假設檢驗,評判影響是否真實 估計,樣本推斷整體 術語 經驗之談 個人隨意收集的證據 直觀...

讀書筆記 程式設計師的數學 概率統計

體會之前讀過程式設計師的數學 程式設計師的數學線性代數,這次就把程式設計師的數學 概率統計也看了。配上普林斯頓微積分讀本,算是把高數三件套都過了一遍。雖然說也上過一遍概率論,但又只剩下一些零碎的記憶了。這次看一遍這本概率統計,看看能不能撈回來一點。跟本科上課的教材相比,它的特點和之前寫過的這種數學入...

統計學條件概率 貝葉斯公式

1.分類加法計數原理場景 從甲地到乙地,可以乘火車 汽車 輪船。火車有 4 班 汽車 2 班 輪船 3 班,那麼一天中乘坐這些交通工具從甲地到乙地有多少種不同的走法?2.分步乘法計數原理場景 從 a 到 b 的道路有 3 條,從 b 到 c 的道路有 2 條,那麼從 a 到 b 到 c 總共有多少種...