ABtest的工作原理

2021-10-10 13:00:54 字數 1823 閱讀 2620

邏輯學中,如果我們能夠證明某個零假設不成立,那麼其備擇假設肯定為真。即,零假設和備擇假設為對立事件。

設立假設:

如果能找到足夠強的證據來否定零假設(a和b沒有顯著差異),那麼就能有效的說明零假設不成立,即備選假設成立。

證據:

計算零假設成立的前提下a和b沒有顯著差異的概率p.value(新方案根本沒啥卵用的可能性),若p值=0.01,顯著性水平α為0.05,則零假設成立的概率=1%小於5%,而備擇假設成立的概率大於95%,因此否定了零假設,可認為備擇假設為真。

結論:

p.value<=α,拒絕零假設;p.value>α,不拒絕零假設

假設檢驗的兩類錯誤:

使用z-檢驗需要知道總體的方差,然而在很多情況下這是難以知道的。

t-檢驗是可以代替z-檢驗的。

根據中心極限定理:當總體分布是正態分佈時,對任意樣本量n,抽樣均值分布均為正態分佈。

如果總體為非正態分佈,僅在n值較大的情況下,樣本均值分布近似為正態分佈。

總體服從正態分佈的資料在小樣本時呈現為t分布形態,而服從t分布的資料在樣本較大時會漸近於正態分佈,也就是無論樣本大小,均可以使用t檢驗。

對樣本進行正態性檢驗,樣本服從正態分佈;

兩組樣本進行方差齊性檢驗,判定是否同方差,以選擇同方差or異方差t檢驗;

進行t檢驗,計算p值,拒絕or不拒絕原假設(通常大家只做了最後一步)

乙個很好的樣本量計算工具

原理大概是這樣~考慮顯著性水平、以及兩組樣本的方差等,來計算最小樣本量。

顯著性水平越低,方差越大,最小樣本量越大。

r語言實現~ pwr.t.test(n=, d=, sig.level=, power=, type =, alternative=)

其中:1、n為樣本大小;

2、d為效應值,即標準化的均值之差;

3、sig.level表示顯著性水平(預設為0.05);

4、power為功效水平;

5、type表示檢驗型別:雙樣本t檢驗(two.sample)、單樣本t檢驗(one.sample)或相依樣本t檢驗(paired)。預設為雙樣本t檢驗。

6、alternative表示統計檢驗時雙側檢驗(two.sided)還是單側檢驗(less或greater)。預設為雙側檢驗。

備註:前五個中,輸入任意4個值,都會輸出另外乙個

例子:

library(pwr)

pwr.t.test(d=.8, sig.level = .05, power = .9, type = 「two.sample」, alternative = 「two.side」)

two-sample t test power calculation

n = 33.82555

d = 0.8

sig.level = 0.05

power = 0.9

alternative = two.sided

note: n is number in each group

結果表明,每組中需要34個樣本(總共68個),這樣才能保證有90%的把握檢測到0.8的效應值,並且最多5%的可能性會誤報差異存在。

aa進行假設檢驗,檢驗aa是否有顯著差異,如果隨機分流穩定,aa不會有顯著差異;

檢查小樣本的分流比例是否和設定的相差不多,例如,看新老使用者分別的分流比例、2000家酒店detail頁的分流比例等等;

順著隨機分流系統的**規則,看乙個使用者是否被分到該分的組內(難度大,主要是看隨機分流系統有無問題)

簡述hdfs工作原理 HDFS的工作原理

hdfs 的工作原理 hadoop 分布式檔案系統 hdfs 是一種被設計成適合執行在通用硬體上的分布式檔案系統。hdfs 是乙個高度容錯性的系統,適合部署在廉價的 機器上。它能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。要理解 hdfs 的內部工作原理,首先要理解什麼是分布式 檔案系統。...

ogg mysql的原理 OGG工作原理

一.goldengate介紹 ogg 是一種基於日誌的結構化資料複製軟體 ogg 能夠實現大量交易資料的實時捕捉,變換和投遞,實現源資料庫與目標資料庫的資料同步,保持最少10ms的資料延遲 二.工作原理 三.相關元件 1.manager 負責ogg 整體的監控和管理 1 trail檔案的生成和刪除 ...

SNMP的工作原理

snmp network management protocol,簡單網路管理協議 首先是由ietf的研究小組為了解決internet上的路由器管理問題而提出的。snmp的設計原則是簡單 性和擴充套件性。簡單性是通過資訊型別限制 請求響應或協議而取得。擴充套件性是通過將管理資訊模型與協議 被管理物件...