python資料分析 假設檢驗

2021-10-04 14:22:41 字數 2160 閱讀 6737

一、假設概念

假設總體均值為μ,那麼實際抽樣的均值離μ越近意味著假設越合理,相反,實際抽樣均值離μ越遠意味著假設越不合理。其中,實際抽樣結果與假設的差異「程度」可以用概率值表示,概率值越大意味著越無差異。在實際中往往認為設定乙個p-value的閾值將差異程度判斷為有差異或者無差異,這就是顯著性水平。

二、假設檢驗基本步驟

提出原假設和備擇假設

確定適當的檢驗統計量

規定顯著性水平

計算檢驗統計量的值

做出決策

三、顯著性水平與拒絕域

四、單樣本t檢驗

假設樣本服從t分布,原假設為總體均值等於μ0

備擇假設為總體均值不等於μ0

先計算樣本均值x,樣本標準差σ

檢驗統計量如下為t = (x-μ0)/(σ/√n)

根據計算出來的p值來判斷是否拒絕原假設,例如p值大於原顯著水平,則無法拒絕原假設,否則拒絕原假設,接受備擇假設。顯著性水平可以理解為拒絕原假設的概率。這裡以0.05作為判斷標準,若p值大於0.05 則表示接受原假設,否則拒絕原假設。

**實戰:

import pandas as pd

import statsmodels.api as sm

#單樣本t檢驗

tips = pd.read_csv(『tips.csv』)

print(tips[『tip』].mean())#輸出該組數的均值

dl = sm.stats.descrstatsw(tips[『tip』]) #首先定義要描述的組資料

lenth = len(tips[『tip』])

result = dl.ttest_mean(3)#引數為假設的樣本值

print(result,lenth)

結果:2.99827868852459 #計算的均值

(-0.01943264142291187, 0.9845119176410584, 243.0)

結果1 為t值,結果2為p值,結果3為資料長度-1

從結果中我們可以看到,p值大於0.05 所以,接受原假設,也就是之前咱們所填的引數 3。說明3 可以作為該資料的均值。

五、雙樣本t檢驗

單樣本t檢驗是比較假設的總體平均數與樣本平均數的差異是否顯著

雙樣本t檢驗是比較兩個樣本的均值的差異是否顯著

在資料分析中,雙陽本t檢驗往往用於檢驗某二分類變數區分下的連續型變數是否有顯著差異

例如,男女收入水平是否有顯著差異、河南河北人均收入是否有顯著差異。

雙樣本t檢驗步驟

假設樣本服從t分布

計算兩組樣本的均值

進行方差齊性檢驗

若方差齊,進行方差齊的雙樣本檢驗,若不齊,進行方差不齊的雙樣本檢驗。

上**:

#雙樣本t檢驗 檢測男女獲得小費的關係

tips = pd.read_csv('tips.csv')

tip_count = tips.groupby(『***』).mean()[『tip』]

gender0 = tips[tips[『***』]『female』][『tip』]#獲取女性的小費資料

gender1 = tips[tips[『***』]『male』][『tip』]#獲取男性的小費資料

result = stats.levene(gender0,gender1)#對兩組資料進行方差齊性檢驗

result2 = stats.ttest_ind(gender0,gender1,equal_var=true)#equal_var=true 表示方差齊,為false 方差不齊

print(result)

print(result2)

結果:leveneresult(statistic=1.9909710178779405, pvalue=0.1595236359896614) #這個pvalue>0.05表示兩個方差齊

ttest_indresult(statistic=-1.3878597054212687, pvalue=0.16645623503456763)#這個pvalue>0.05表示兩個變數沒有明顯差異。

也就說明男女所獲得的小費並無明顯的差異,也就是獲得小費與性別沒有明顯關係。

假設檢驗 假設檢驗學習筆記

在實際工作和研究中,往往只能獲得資料的一部分,通常指這個資料為樣本,而通過樣本對整體的估計被稱為假設檢驗。樣本是從整體中選取的較小集合,中心極限定律 樣本的均值約等於總體的均值 不管整體什麼分布,任意乙個總體的樣本均值都會圍繞在總體的均值周圍,且呈正太分布。關鍵資訊 樣本的均值等於總體的均值 樣本的...

資料分析面試必備知識 假設檢驗

3 顯著水平 4 與置信區間的關係 講概率 論統計,肯定要從拋硬幣說起啊,這才是正確開啟姿勢嘛。你說你的硬幣是公平的,也就是 花 和 字 出現的概率是差不多的。然後,你想和我打賭,作為乙個資深的理智賭徒,我怎能聽信你的一面之詞,我提出要檢查下你的 硬幣到底是不是公平的,萬一是兩面 花 怎麼辦?電影裡...

假設檢驗 到底該怎麼理解假設檢驗?

學過統計學或概率論的同學,對 假設檢驗 這個詞一定不陌生。因為期末考試的卷子裡必定會考一道這種題,那個時候,我其實對假設檢驗的流程並不是很理解,不過幸好流程簡單,照葫蘆畫瓢,套一套格式就能答對。那假設檢驗到底是個什麼東西?先上一道假設檢驗的例題,回憶一下假設檢驗的流程,找一下當初的感覺。某工具機廠加...