方差學習總結

2022-04-10 11:22:44 字數 2750 閱讀 3474

在分析之前,要嚴格區分乙個概念是在概率學上的定義還是在統計學上的定義。概率學比統計學更加的抽象一點,概率學研究乙個事件的理想的情況,但是在真實的世界,這種理想的情況是很難或者不可能達到的,所以利用統計學中的樣本來估計這個理想的結果。

概率論中方差用來度量隨機變數和其數學期望(均值)之間的偏離程度。

統計學中的方差(樣本方差)是各個資料分別與其平均數之差的平方和的平均數。

設x是乙個隨機變數,若$e\\} $存在,則稱$e\\} $為x的方差,記為d(x)或者var(x)。

d(x)是刻畫x取值分散程度的乙個量,它是衡量取值分散程度的乙個尺度。

離散型方差:

$d(x) = \sum\nolimits_^n \cdot - u)}^2}} $。其中$u = e(x) = \sum\nolimits_^n \cdot } $

注意:在統計學中,樣本的均值為$\widehat u = \frac\sum\nolimits_^n } $

將上面的d(x)展開後得到\[d(x) = var(x) = \sum\nolimits_^n \cdot x_i^2) - } \]

連續型方差:

對於連續型隨機變數,$var(x) = = \int ^2}f(x)dx = } \int f(x)dx - } $其中$u = \int $並且此處的積分是以x的取值範圍(一般是負無窮~正無窮)為積分上下界的定積分。所以$\int_^  = 1$。

根據方差的定義:$d(x) = e\\} $

所以:

方差是各個資料與平均值之差的平方和的平均數,即:

\[ = \frac[ - \overline x )^2} + - \overline x )^2} + ... + - \overline x )^2}]\]

其中$\overline x $是樣本的平均數。

注意這裡的$$並不是隨機變數的方差,它是利用樣本資料對隨機變數方差的乙個估計。

現在樣本只是總體的一部分,用樣本得到的樣本方差也不可能那麼理想的正好等於總體方差。為了能準確的估計總體方差,希望這個樣本方差能夠是總體方差的乙個無偏估計。也就是說$e() = $。其中$$是樣本方差,$$是總體方差。

但是上面的$$不是$$的無偏估計:

從公式推導可以看到,這裡的$$不是$$的無偏估計。

所以一般的樣本方差用乙個修正值:

\[ = \frac}^n - \overline x )} ^2}\]

樣本方差公式裡分母為n-1的目的是為了讓方差的估計無偏,因為無偏的估計比有偏估計更好的符合直覺。儘管有的統計學家認為讓mean square error即mse最小才更具有意義。

在做出解釋前先給出結論:

\[e[\frac}\sum\limits_^n - \overline x )}^2}} ] = \]

也就是說$\frac}\sum\limits_^n - \overline x )}^2}} $是總體樣本方差$$的無偏估計。

第一種情況:

假設隨機變數x的數學期望u是已知的,然而$$是未知的。在這種情況下,樣本方差可以直接用定義寫出來:各個資料分別與平均數(這裡的平均數是均值u)之差的平方和的平均數。也就是:$ = \frac^n - u)} ^2}$。

\[\begine()\\ = e(\frac^n - u)} ^2})\\ = \frace(^n - u)} ^2})\\ = \frac^n - u)} ^2}]\\ = \frac\sum\nolimits_^n ^2 - 2u} + ]\\ = \frac\sum\nolimits_^n ^2 - 2ue + ]} \\ = \frac\sum\nolimits_^n + - 2 + ]} \\ = \end\]

所以$e(\frac^n - u)} ^2}) = $

即在隨機變數x的數學期望u已知的條件下,$\frac^n - u)} ^2}$是總體方差的無偏估計。

第二種情況:

在隨機變數x的數學期望u未知的情況下,我們被迫使用樣本均值 $$代替上面的u,也就是使用$\frac^n - \overline x )} ^2}$作為總體方差$}$的估計。

但是這種情況往往會低估總體方差。因為:

而$\frac^n - u)} ^2}$才是對總體方差的無偏估計。

綜合上面的兩種情況來說:

在不知道隨機變數真實數學期望的條件下,把分母n換成n-1,就是把原來偏小的估計放大了一點,這樣就能得到正確的估計了。

$e(\frac^n - u)} ^2}) = e[\frac}\sum\limits_^n - \overline x )}^2}} ] = $至於為什麼是n-1,而不是n-2或者什麼別的數,上面的公式已經推導過了。

機器學習 方差 協方差與皮爾遜值

今天是概率統計專題的第六篇,我們來看看方差相關的概念。方差在我們的日常生活當中非常常見,它主要是為了提供樣本離群程度的描述。舉個簡單的例子,我們去買一包薯片,一般來說一袋薯片當中的數量是固定的。我們假設平均每袋當中都有50片薯片好了,即使是機器灌裝,也不可能做到每一袋都剛好是50片,或多或少都會有些...

方差 標準差 均方差 均方誤差區別總結

variance 是在概率論和統計方差衡量隨機變數或一組資料時離散程度的度量。概率論中方差用來度量隨機變數和其數學期望 即均值 之間的偏離程度。統計中的方差 樣本方差 是各個資料分別與其平均數之差的平方的和的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。看這麼一段文字可能有些繞,那就先從...

方差 標準差 均方差 均方誤差區別總結

variance 是在概率論和統計方差衡量隨機變數或一組資料時離散程度的度量。概率論中方差用來度量隨機變數和其數學期望 即均值 之間的偏離程度。統計中的方差 樣本方差 是各個資料分別與其平均數之差的平方的和的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。看這麼一段文字可能有些繞,那就先從...