這裡開始就是數理統計的東西了,沒有接觸過的童鞋可能會覺得有點不能接受,其實接觸多了也就熟悉了。個人有這樣一種感覺,假設檢驗和區間估計就是概率的概率,或者說,就是概率論的二次方。
先說一下抽樣和估計吧。我們現在有乙個總體,但是,通常總體的一些統計量的獲取是很花時間和金錢的,所以呢,我們就想著抽樣。所謂抽樣,當然就是從整體中抽一些樣本出來。這個時候就有乙個問題了,我計算了抽樣獲得的樣本的均值、方差,真的能夠描述原來總體的均值、方差麼?
按照我們高中的數學知識,確實是這樣的,我們算好均值,就可以認為是總體的了。這就是點估計。那什麼是區間估計呢?我不告訴你乙個點,我告訴你乙個區間。這樣就有乙個問題了,區間可以很大呀。比如說我抽樣之後告訴你,總體的平均身高在0到3公尺之間,這個就有點廢話了,所以在區間估計的時候,我們會說置信度,也就是說,多大的概率,這個均值落在這個區間裡面。
那麼這個怎麼計算呢?
所以我們要多次抽樣,獲得很多的均值,這時候,我們獲得的均值是乙個隨機變數了,那麼他就有分布,就有均值(這是均值的均值),就會有方差等等。是不是我之前說的概率論的平方啊。
這個時候,我們要提出乙個很重要的定律,中心極限定律。他是這麼說的:
你不是抽樣麼,如果你抽樣抽的很多,每次抽樣的數量大於30,那麼,我們認為你得到的均值的分布是乙個正態分佈,這個正態分佈。既然是正態分佈,就會有兩個引數,期望和方差。期望就是總體的均值。那麼方差是什麼呢?方差就是總體方差除以n。
現在,會有兩個問題,首先說第乙個,萬一抽樣數量沒有30個怎麼辦?這個時候就要分情況考慮了,如果總體是服從正態分佈的,那麼還是一樣滿足;如果總體不是正態分佈,那麼就不能用這個中心極限定律了。
還有乙個問題是,你怎麼知道總體的方差?這時候就需要t-分布了。如果你不知道總體的方差,那麼我們用樣本的方差來代替,但是這時候均值的分布就不是正態分佈了,而是乙個t-分布。總結一下就是下面這張表。之前提過,當t-分布的樣本很多的時候,趨近與正態分佈,所以,有時候,正態分佈和t-分布都可以使用。
有了上面這樣的基礎,我們就知道如何獲取乙個給定置信度下的置信區間了。
譬如我們進行一次抽樣,抽取100個,然後計算這100樣本的均值和方差,然後根據這一方差除以100得到均值分布的方差。進行正態分佈歸一化後,利用之前的分位數,就可以獲得乙個區間了。
這就是區間假設。
如果把上面的步驟反過來,就變成了假設檢驗了。
在假設檢驗的第一步,就是寫出假設,乙個叫null假設,乙個叫備擇假設。null假設通常是用來拒絕的,那怎麼叫拒絕呢,就是我麼看他有沒有落在置信區間裡面。很easy的思想。
但是,不同的假設使用的分布式不同的,比如我們假設均值等於4,那麼我們看一下,4在不在我們的區間裡面,這個區間你是使用正態分佈分位數算出來的;如果判斷乙個方差是不是某個值呢?這時候就用卡方分布;如果是測試兩個分布的方差是否一樣的,那麼就是f-分布。
這就是所謂的假設檢驗。當然,還有很多的數學細節,但是思想就是這樣。
出版 金融產品數量分析Matlab程式設計
作者前言 金融市場從來都是資本與智慧型的競技場,自從布萊克與斯科爾斯在20世紀70年代提出了期權定價公式起,數學方法開始在金融領域得到廣泛的應用。隨著金融品種多樣化 交易的全球化使得金融市場資訊科技急速增長,定性分析已經無法處理如巨大的資料。以數學與計算機相結合的數量化分析方法迅速發展。無論是過去的...
C 程序中最大執行緒建立數量分析
thread th newthread opthread th.isbackground true th.start private void opthread catch system.exception ex finally region 最大執行緒測試 list lstthread new l...
活躍變數分析
1 定義 對於變數x和程式點p,判斷x在點p上的值是否會在流圖中的某條從點p出發的路徑中使用。如果是,就說x在p上活躍 否則就說x在p上是死的。2 用途 重要用途之一是為基本塊進行儲存器分配。乙個值被計算儲存到乙個暫存器中後,很有可能在基本塊中被使用。如果它在基本塊中是死的,就不必在結尾處儲存這個值...