包括引數估計與假設檢驗,指事先對總體的引數或者總體分布形式做出乙個假設,然後利用樣本資訊來判斷這個假設是否合理。即分為兩個步驟:第一步需說明樣本是否能代表總體,第二步用樣本判定假設。
1.引數估計概念
引數估計:即用樣本統計量估計總體的方法,包括點估計與區間估計兩種。
方差齊性:方差齊性檢驗(homogeneityof variance test)是數理統計學中檢查不同樣本的總體方差是否相同的一種方法。在方差齊性的前提下比較均值,才能知道總體的概況。
點估計:包括矩陣估計法與最大似然估計法
區間估計:包括點估計與描述估計精確度的正負值。即判斷某值在哪個區間內,並判斷在這個區間內的置信度,置信度通常為95%/90%。
例:樣本量為100,均值為80,總體標準差為100
1.1用樣本估計總體
總體均值=樣本均值
樣本方差與總體方差:樣本方差為n-1,總體方差為n。即有樣本2,1,2,4,5,7,用這些數估計總體方差時需除以n-1
總體比例=樣本比例
1.2用總體估計樣本
根據總體個體比例估計樣本個體比例(如總體中每包100顆糖果中紅色糖果的比例的25%,買到一包糖果紅色糖果比例大於40%的概率為多少)利用比例的抽樣分布,能夠求出某乙個隨機選擇的、大小為n的樣本的「成功比例。即每100顆糖果中抽到紅色糖果概率為0.25,x~b(100,0.25)
根據總體個體均值估計樣本個體均值:x~n(μ, σ^2)
2.假設檢驗概念
2.1假設檢驗六步驟
(1)根據樣本,確定整體是不是屬於假設的情況。
(2)需要進行檢驗的假設
(3)選擇檢驗統計量
(4)確定用於做決策的拒絕域(求拒絕域之前定顯著性水平)
(5)求出檢驗統計量的p值
(6)檢視樣本結果是否位於拒絕域內
(7)作出決策
2.2各檢驗適用情況
t檢驗:用於樣本含量較小,總體方差 σ未知的情況。(計算條件:總體均數已知,樣本均數以及樣本標準誤已知,樣本來自正太或近似正態總體)
3.檢驗依據
顯著性水平就是指當原假設正確時人們卻把它拒絕了的風險或概率。
顯著性水平+置信水平=1
顯著性水平越大,結果被拒絕的可能性就越大(即h0假設某藥能**鼻鼾,顯著性水平為5%,即置信水平為95%,假設h0被拒絕的可能性為5%,h0被接受的可能性為95%)
構建置信區間[均值-抽樣偏差,均值+抽樣偏差]
置信區間越寬,結果越無用。
統計學術語及解釋(二)
元素,element 第一類錯誤,error of type 拒絕乙個為真的零假設帶來的錯誤 第二類錯誤,error of type 不拒絕乙個偽的零假設帶來的錯誤 估計,estimation 期望頻率,expected frequency,在列聯表的每個單元格計算出來的使兩個分型別變數之間沒有關係...
統計學習 基本術語和概念
1.統計學習和機器學習 統計學習就是計算機系統利用資料和統計方法提高系統效能的機器學習,如今的機器學習一般指的就是統計學習。所謂的系統效能一般指對資料的分析和 能力。2.輸入空間,輸出空間,特徵空間 將輸入和輸出所有可能的取值稱之為輸入空間和輸出空間 每個輸入例項通常由乙個特徵向量進行表示,這樣所有...
統計學和資料探勘的關係
資料探勘和統計學是交集的關係,它們之間有很強的關係,但不是乙個涵蓋另乙個。統計學是從小樣本資料分析,推測總體的特徵。而資料探勘是從盡可能大的資料集上直接尋找特徵。應用方法上,資料探勘多用於主動式的發現,而統計學多用於被動式的驗證。從大量的商業專案實踐中,我們體會到資料探勘探索與統計學分析很多時候結果...