注:其實從中學就開始學習統計學了,最早的寫"正"字唱票(相當於尋找眾數),就是一種統計分析的過程。還有畫直方圖,求平均值,找中位數等。自己在學校裡並沒有完整系統的學習過概率論和數理統計,直到在工作中用到,才從最初的印象中,逐漸把這門學科與整個數學區分開來。自從認識到這門學科在自己從事的工作(資料分析)中所處的重要地位,真沒少花時間在這方面的學習上。從最初的p值的含義,到各種分布,假設檢驗,方差分析。。。有的概念看過很多遍,但還是沒有理解透徹;有的看過,長時間不用,又忘記了。總之,這一路走來,實在是崎嶇坎坷。因此,打算在最近專門抽出一段時間對自己學習過的《概率論與數理統計》做乙個小結,也算是對自己的乙個交代。主要包括以下幾個方面:
統計規律性:
在所有可觀察的現象中,可以從大的方面分為兩類——必然現象和隨機現象。
但當我們在相同的條件下,大量重複(如果可以的話)做某件不確定的事,然後統計實驗結果,就有可能發現某種規律。還是拿拋硬幣來舉例,每次拋硬幣都不知道會得到正面還是反面,但如果有耐心將一枚均勻的硬幣拋20,000次(已經有多位著名的統計學家這麼做過了),然後統計一下正反面分別出現了多少次,就可以發現它們差不多都是10,000次,也就是差不多各佔50%。上面的拋硬幣的例子中,隨機現象(拋硬幣)在相同的條件下,大量重複試驗中呈現的規律性就叫做統計規律性。《概率論與數量統計》就是研究隨機現象的統計規律的一門學科。從這裡也可以看到樣本量的多少對研究隨機變數的規律的影響是巨大的。
概率論與數理統計:
實際上,一般概率論與數理統計被認為是兩個學科。
概率論是數學的乙個分支,研究如何定量描述隨機變數及其規律;
數理統計則是以資料為唯一研究物件,包括資料的收集、整理、分析和建模,從而對隨機現象的某些規律進行**或決策。
怎麼學習概率論與數量統計:
學思想:如何看待和處理隨機規律性;
學方法:建立統計模型;
學應用:模型的實際應用,也可以自己收集、尋找各種例項;
學軟體:掌握統計軟體的使用和結果分析。
檢驗標準:對"隨機"有足夠的認識;對"資料"有興趣、有感覺。
隨機試驗:
對隨機現象的觀察、記錄、實驗統稱為隨機試驗。它具有以下特性:
隨機試驗有很多種,例如常出現的擲骰子,摸球,射擊,拋硬幣等。所有的隨機試驗的結果可以分為兩類來表示:
樣本空間:
隨機試驗的所有可能結果構成的集合。一般即為s(大寫的s)。
s中的元素e稱為樣本點(也可以叫做基本事件);
事件是樣本空間的子集,同樣是乙個集合;
事件的相互關係:
事件的運算性質就是集合的性質
頻率:
頻率是0~1之間的乙個實數,在大量重複試驗的基礎上給出了隨機事件發生可能性的估計。
頻率的穩定性:在充分多次試驗中,事件的頻率總在乙個定值附近擺動,而且,試驗次數越多擺動越小。這個性質叫做頻率的穩定性。
概率:
概率的統計性定義:當試驗次數增加時,隨機事件a發生的頻率的穩定值p就稱為概率。記為p(a)=p
概率的公理化定義:設隨機試驗對於的樣本空間為s。對每乙個事件a,定義p(a),滿足:
非負性:p(a) ≥ 0;
規範性:p(s) = 1;
可列可加性:a1, a2, ...兩兩互斥,及aiaj = ∅, i≠j, 則p(∪ai) = ∑p(ai)
概率是隨機事件的函式,對於不同的事件,取不同的值
條件概率:
p(a|b)表示在事件b發生的條件下,事件a發生的概率,相當於a在b中所佔的比例。此時,樣本空間從原來的完整樣本空間s縮小到了b
由於有了條件的約束(事件b),使得原來的樣本空間減小了。
圖1:a.條件概率的樣本空間;b.條件概率的計算公式
例:乙個家庭中有兩個小孩,已知至少乙個是女孩,問兩個都是女孩的概率是多少?
(假定生男生女是等可能的)
解:由題意,樣本空間為
s =
b =
a =
由於事件b已經發生,所以這時試驗的所有可能只有三種,而事件a包含的基本事件只佔其中的一種,所以有:
p(a|b) = 1/3,
即在已知至少乙個是女孩的情況下,兩個都是女孩的概率為1/3。
在這個例子中,如果不知道事件b發生,則事件a發生的概率為p(a) = 1/4
這裡p(a) ≠ p(a|b),其原因在於事件b的發生改變了樣本空間,使它由原來的s縮減為新的樣本空間sb = b。
在幾乎所有的教材中,介紹概率論時都是從事件和樣本空間說起的,但是後面的概率論都是圍繞著隨機變數展開的。可以說前面的事件和樣本空間都是引子,引出了隨機變數這個概率論中的核心概念。後面的統計學是建立在概率論的理論基礎之上的,因此可以說理解隨機變數這個概念是學習和運用概率論與數理統計的關鍵。
名詞解釋:
定義:
設隨機試驗的樣本空間是s。若對s中的每個樣本點e,都有唯一的實數值x(e)與之對應,則稱x(e)為隨機變數,簡記為x。圖2:a.隨機變數與事件的關係;b.隨機變數的本質是函式(一種對映關係)
隨機變數的定義並不複雜,但是理解起來卻並不是那麼直觀。參考圖2的兩個示意圖,可以幫助理解。
隨機變數的表示:
通過引入隨機變數,我們簡化了隨機試驗結果(事件)的表示,從而可以更加方便的對隨機試驗進行研究。
圖3:從事件到隨機變數
例:用x表示單位時間內某**交換台收到的呼叫次數,它是乙個隨機變數。
隨機變數的分類:
隨機變數的數字特徵:
歡迎閱讀「概率論與數理統計及python實現
」系列文章
reference
中國大學mooc:浙江大學,概率論與數理統計
中國大學mooc:哈爾濱工業大學,概率論與數理統計
重大修訂版:
概率論與數理統計
概率論與數理統計是研究和揭示隨機現象統計規律性的一門數學學科。1,有一類現象,在一定條件下必然發生,這類現象稱為確定性現象。例如,石子必然下落,同性電荷必然相互排斥。2,在試驗或觀察之前不能預知確切的結果,但是在大量重複試驗或觀察下,結果卻呈現出某種規律性。這種在大量重複試驗或觀察中所呈現出的固有規...
概率論與數理統計 2
看乙個例子 盒子中有5個球,其中3個紅球,隨機取2個,注意問的問題?取到1個紅球的概率至少取到乙個紅球的概率無法取到紅球的概率取到2個紅球的概率取到紅球的個數 1 4的概率都是乙個數值,而取到紅球的個數則可能是0,1,2,但這些結果是隨機的,那麼稱取到紅球的個數為乙個隨機變數,並且求出各個取值的概率...
概率論與數理統計 3
扔硬幣不是正就是反 扔骰子的點數是1,2,3,4,5,6 打靶要麼中標要麼不中 這些結果數值都是明確可以取值的.稱為離散型隨機變數 圓的角度 0 360,可以有小數點 某人上班8點到9點之間到,這個結果集無法列舉 乙個燈泡的使用壽命 這些數值都無法列舉,但可在其範圍內取任一實數就稱為連續型隨機變數 ...