從總體中隨機抽取樣本的目的 講講統計學中的大數定理

2021-10-13 15:47:53 字數 1211 閱讀 9951

這一節來講講大數定理,大數定理和中心極限定理是比較接近的兩個概念,這兩個定理經常一起出現。我們來具體看下大數定理的內容:

大數定律是指:隨著樣本容量n不斷增加,樣本平均數將越來越接近於總體平均數(期望 μ),我們把總體的平均數稱為期望,關於均值與期望的差別,我們在前面的文章中寫過:均值與期望到底是不是一回事?

基於大數定理的存在,所以我們日常分析過程中一般都會使用樣本的均值來估計總體的均值。比如大家所熟知的實驗,其實就是拿總體中的部分樣本去做實驗,然後在部分樣本上得到的均值效果就可以等效代替是在全部樣本上得到的效果。

不過需要注意的是,我們上面說到的是隨著樣本數的增加,樣本均值會越來越接近總體樣本均值,接近不代表等於,所以樣本均值和總體還是會有一些偏差的,但在實際業務中我們一般又無法拿到總體的均值,所以只能用樣本均值,但是要知道還是有一些偏差的。

接下來,我們用資料模擬下:

我們先隨機生成10w個值,把這10w個值作為我們的總體,然後隨機從這10w裡面抽取100、200、300 …… 99900、100000,針對每次抽取出來的樣本計算乙個均值,最後會得到99900個均值,我們把這些均值按照樣本容量從小到大排序,最後繪製出均值趨勢圖如下:

上圖中的紅線是代表總體均值,可以看出,隨著樣本容量n不斷增加,樣本均值的波動幅度越來越小,越接近於總體均值。上面過程的python實現**如下:

import numpy as np

import pandas as pd

all_value = np.random.randint(1,100000,100000)

sample_size =

sample_maen =

for i in range(100,100000,100):

pd.dataframe().set_index("sample_size").plot()

plt.axhline(all_value.mean(),color = "red")

大家可以把**複製下來,自己執行一遍。

SQL 隨機抽取樣本

想要在sql隨機抽採樣本數,隨機從總樣本中抽取1000個樣本,儲存在table name表中 create table table name as 建立乙個表table name select b.from select rand as index name,a.from table name a ...

面試題 數學與概率 從資料流中隨機選取樣本

題目 輸入一段int型資料流,輸入未完成之前並不知道資料流的長度,要求在o 1 空間複雜度的前提下隨機選出乙個元素,並保證每乙個元素被選中的概率是一樣的。我的解法如下 假如輸入的資料流依次是10 20 30 40 收到10時 以概率1選擇10 收到20時 以概率1 2選擇10,以概率1 2選擇20 ...

從大小為N的樣本集中隨機採集不同的K個樣本

這類為題可以抽象為隨機生成k個 1 n之間不同的整數。解決思路 a,選中第1個元素,將其與n個元素中的任意乙個交換 包括第1個元素自己 這時排序後的第1個元素已經確定。b,選中第2個元素,將其與n 1個元素中作任意乙個交換 包括第2個元素自己 c,重複上面步驟k次 實現 include includ...