統計學系列目錄(文末有大獎贈送
):
統計學①——概率論基礎及業務實戰
統計學②——概率分布(幾何,二項,泊松,正態分佈)
統計學③——總體與樣本
統計學④——置信區間
當你從廣告中,從別人口中,從新聞上等得到乙個結論時,你要判斷這個結論是否可信,假設驗證就是這樣一種判斷是否值得可信的方法。
比如市面上很繁榮的it培訓,包你在三個月找到工作,這怎麼驗證真偽呢?先假設這句話是真的,再去選擇一些參加過培訓的人的,看找到工作的人有多少?如果都找到了那就值得信,但是由於各種各樣的因素不太可能誰都找到,我們允許有一定的誤差,假如5%,那就超過95%的都找到了,那也值得信。如果只有很少的人找到,我們就足以推翻這個結論,得到相反的結論。
1、設定原假設——參加培訓的人90%都能找到工作,換成數字就是成功找到工作的比例p=90%
2、作好備擇假設——成功找到工作的比例p<90%,這個叫單側檢驗,根據實際情況可以選擇單側或雙側
3、設定檢驗統計量——成功找到工作的比例p,p服從二項分布,當滿足特定條件時,二項分布可近似為正態分佈,就可以通過標準化為n(0,1)分布獲得概率分布
4、設定拒絕域——是指當樣本的統計量的概率處於某個範圍時,就可以拒絕原假設,一般以5%,也叫顯著性水平
5、抽取樣本——簡單隨機,分層,分群,系統抽樣等盡量保證樣本無偏
6、根據樣本計算統計量並判斷是否接受原假設——比如統計量為p=87%,沒有落入拒絕哉,那就沒有足夠的證據推翻原假設,那就說明參加這個培訓的人確實90%都能找到工作(雖然實際是不可能的,舉個例子不要當真,哈哈)
1、均值
統計量為μ,如果總體為正態分佈,則不管大小樣本,均值符合正太分布
如果總體是非正太分布,大樣本可以近似為正態分佈,小樣本可以近似於t分布
2、比例
統計量p,如二中所說,在樣本和總體比例滿足:np>5且np(1-p)>5時, 比例可近似於正太分布
3、卡方
驗證實際頻數與預期頻數是否一致,統計量為χ2,中文名就卡方(下文會解釋),卡方服從卡方分布
1、卡方分布是什麼?
假設隨機變數x符合卡方分布,則概率分布曲線為:
n越大,曲線越趨向於對稱,可以通過差表獲得概率,這裡要注意一點,概率表中是以自由度來查詢概率,自由度 = 組數-限制數
兩大性質:
主要用於:
① 檢驗實際概率是否符合特定概率分布
② 檢驗兩變數是否具有相關性
2、卡方檢驗是什麼?
卡方檢驗是實際頻數與預期頻數是否存在差別的度量χ2,χ2越小,說明觀察頻數與期望頻數相差越小。
其中o是實際頻數,e是理論頻數
3、假設檢驗的步驟
與均值,比例假設檢驗步驟相同
本人網際網路資料分析師,目前已出excel,sql,pandas,matplotlib,seaborn,機器學習,統計學,個性推薦,關聯演算法,工作總結系列。
重溫統計學 假設驗證
上一期說到三大抽樣分布的主要作用在於引數估計與假設驗證,引數估計已經在重溫統計學 引數估計介紹過了,今天我們來看看假設驗證是什麼,怎麼用?假設檢驗其實很好理解,生活中的例子也很多,最常見的就是應用在法庭上,法官先假設嫌疑犯無罪,然後收集證據,如果有足夠證據證明嫌疑犯有罪,則需要宣判嫌疑犯有罪。假設驗...
統計學的假設檢驗
假設檢驗是一種規則,它根據資料樣本所提供的證據,指定是肯定還是否定有關總體的宣告。基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件 p 0.01或p 0.05 在一次試驗中基本上不會發...
統計學03 假設檢驗
假設檢驗本質是一種逆向思維的應用。用大白話講,就是假如你想證明自己能辦成一件事,可以先假設你辦不成這件事,通過證明辦不成這件事發生的概率非常小來論證這件事是可以辦成的。在統計學中,這個辦不成這件事的假設被稱為零假設,記為h 0h 0 h0 而你辦成這件事的假設 在事實發生之前同樣是假設 被稱為備擇假...