置信區間與置信度

2022-02-20 02:36:11 字數 1058 閱讀 4414

本文簡要介紹了置信區間這一核心概念,它有助於我們從直觀上理解評價估計優劣的度量方法。

假設你想知道美國有多少人熱愛足球。為了得到 100% 正確的答案,你可以做的唯一一件事是向美國的每一位公民詢問他們是否熱愛足球。根據維基百科,美國有超過 3.25 億的人口。與 3.25 億人談話並不現實,因此我們必須通過問更少的人來得到答案。

我們可以通過在美國隨機抽取一些人(與更少人交談)並獲得熱愛足球的人的百分比來做到這一點,但是我們不能 100% 確信這個數字是正確的,或者這個數字離真正的答案有多遠。所以,我們試圖實現的是獲得乙個區間,例如,對這個問題的乙個可能的答案是:「我 95% 相信在美國足球愛好者的比例是 58% 至 62%」。這就是置信區間名字的**,我們有乙個區間,並且我們對它此一定的信心。

非常重要的是我們的樣本是隨機的,我們不能只從我們居住的城市中選擇 1000 人,因為這樣就不能很好地代表整個美國。另乙個不好的例子是,我們不能給這 1000 個隨機使用者發 facebook 訊息,這樣我們就會得到美國 facebook 使用者的喜愛趨勢,因為並不是所有的美國公民都使用 facebook。

我們不知道在美國熱愛足球的人的實際比例。我們所知道的是,如果我們從總體分布取無數個樣本,它將如下所示:

這裡 μ 是總體分布的平均值(我們例子中足球愛好者的實際百分比),σ 是總體分布的標準差。

如果我們知道這一點(並且我們知道標準差),我們可以說約 68% 的樣本會落在紅色區域,或者 95% 以上的樣品會落在圖中的綠色區域之內:

如果我們在之前假設的實際百分比 65% 上使用該圖,那麼 95% 以上的樣本將在 62% 和 68% 之間(+ - 3)。

當然,距離是對稱的,所以如果樣本有 95% 落在在實際百分比 -3 和 +3 之間,那麼真實百分比落在樣本百分比 -3 和 +3 之間的概率為 95%。

如果我們抽取乙個樣本,得到了 63%,那麼我們可以說我們 95% 確信實際比例在 60%(63-3)和 66%(63 + 3)之間。

這就是置信區間,區間為 63 + -3,置信度為 95%。

標準差決定置信度

關於置信度和置信區間的解釋

所謂置信度,也叫置信水平。它是指特定個體對待特定命題真實性相信的程度.也就是概率是對個人信念合理性的量度.概率的置信度解釋表明,事件本身並沒有什麼概率,事件之所以指派有概率只是指派概率的人頭腦中所具有的信念證據。置信水平是指總體引數值落在樣本統計值某一區內的概率 而置信區間是指在某一置信水平下,樣本...

置信度和置信區間的演算法實現

在講置信度和置信區間之前先講講點估計,那什麼是點估計呢?給你舉兩個例子你就知道了。現在你想要知道乙個學校學生的身高情況,你可以把所有的學生測量一遍,然後得到答案,這種方法可以,而且得到的資料肯定是最真實的,但是這裡有乙個問題,什麼問題呢?就是如果學生人數太多,全部測量的話工作量太大了,那怎麼辦呢?那...

置信區間與置信水平

技術場景 在總體的標準差已知的情況下,使用邊際誤差與區間估計,總體的引數 應用場景 現有過去1 12月的銷售資料,並且每個月的銷售資料的變動幅值不太大,現在有了100條當月銷售資料,求取當月可能的銷售額度 使用這些值,去做一次統計推斷,推斷當月銷售額度可能的數值區間import numpy as n...