我之前在上概率論與數理統計這門課的時候,關於推斷性統計有很多知識都沒有仔細地去看,因此過了一年就忘記了。因此在我馬上學習深度學習之際,想對它重新複習一下。所以在udacity上我選了這門課。
,這一系列的部落格就是按照udacity的《推斷性統計學》來寫的。
首先udacity上的這門推斷性統計是接著描述性統計課來的。所以它的第一章是在總結描述性統計的內容。但是筆者根本沒有看見這段話!因此在一開始學習的時候是懵逼的——為什麼直接從第7章開始了?為什麼一開始上來就這麼多問題?在學了一段時間後,才漸漸從懵逼中緩和。
點估計(point estimation)是用樣本統計量來估計總體引數,因為樣本統計量為數軸上某一點值,估計的結果也以乙個點的數值表示,所以稱為點估計。接下來我們要說的z假設檢驗就利用了區間估計。區間估計(interval estimation)是引數估計的一種形式。通過從總體中抽取的樣本,根據一定的正確度與精確度的要求,構造出適當的區間,以作為總體的分布引數(或引數的函式)的真值所在範圍的估計。
標準誤差(standard error)δs
是對誤差的一種估計,其公式為: δs
=δn‾
‾√δ為
樣本方差
,n為樣
本個數。
標準誤差的意義在於反應了利用x⎯
⎯ 估計
μ 的偏差程度,從數學上也很容易得到其意義的推導,只需要將x⎯
⎯ 視為隨機變數,帶入方差公式即可。
z score就是常說的z檢驗統計量,它的公式為: z=
x⎯⎯−
μδs其
中μ為總
體均值,
δs為標
準方差,
n為樣本
個數。
z socre服從標準正態分佈,因此p(
|z|<ξ)
的概率可以很容易借助查表的方式得到,方便檢驗。zs
core
檢驗(z test)一般用於大樣本的均值差異性檢驗,利用zs
core
服從標準正態分佈這一特性來推斷樣本的均值與某分布總體是否存在顯著差異。
步驟:建立原假設:樣本均值x⎯
⎯ 與總體均值
μ 無顯著差異。計算z
scor
e 及其置信區間。根據z
scor
e 是否落在置信區間內來判斷原假設是否成立,若zs
core
在置信區間內則接受原假設,否則拒絕原假設。
其中置信區間的選擇要根據具體問題合理構建,常用的有兩個置信區間:
已知總體均值為1.4432,總體方差為1.2322,請問從該總體中隨機抽取規模為16的樣本,其均值的期望是多少?標準誤差為多少?
接著上問已知現有一樣本,規模為16,均值為1.7384。請問該樣本是否服從上問的總體分布?
教你如何區分描述統計學與推斷統計學
統計學被廣泛的應用於各個領域之上,從物理和社會科學,再到人文科學,甚至被用在工商業及zf的情報決策當中。統計學又可分為描述統計學和推斷統計學,那麼要怎樣來區分她們呢?我們先來了解描述統計學和推斷統計學的概念 因此我們可以得出兩者的共同點 兩者都以概率論為理論基礎,都是數理統計學,都是應用數學的乙個分...
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
描述性統計學
描述性統計學是資料分析的基礎內容,雖是基礎,但是不能忽視,資料中最初展示的資訊往往就是利用描述性統計學總結出來的。描述性統計學回顧 描述性統計學有五個重要的指標 1,平均值 2,四分位數 3,標準差 4,變異係數 5,標準分 1,平均值 平均值的統計學意義很簡單,就是求一組資料的平均數 雖然平均數簡...