魚的概率思考

2021-06-19 08:17:52 字數 3823 閱讀 8305

研究隨機現象, 什麼是隨機現象呢?在某種特定情況下,或者某個環境中,不總是出現同乙個結果的現象就是隨機現象。研究某個隨機現象的時候,隨機現象所有可能結果組成的集合稱為樣本空間。 隨機現象的每種基本結果被定義為樣本點。我們可以理解這種隸屬關係,隨機現象擁有樣本空間和樣本點這兩個屬性。 某些樣本點組成的集合稱為事件。事件本質是集合,我們可以研究事件間的關係、事件間的運算。在事件上定義乙個叫做概率的函式,這就給我們 研究某些隨機現象結果的可能性 提供了數學基礎。給出概率的定義,通過事件的相互關係、運算性質,我們可以得到一些事件間的概率性質,或者事件本身的概率性質。 

研究隨機現象,首先應該明確我們研究的是什麼現象!樣本空間是什麼!我們對哪些事件感興趣!如何確定這些事件的概率!

在研究過程中,大家會不自然的用到一些符號來表示隨機現象的結果,這就是我們內心對隨機變數的訴求。隨機變數已經深入我們的內心,很難去分離理解他了。 如果能區分他,明確的理解他,我們有理由相信這會幫助我們解決實際問題。 所以我們設法理解或者說重新理解隨機變數。 我們把隨機現象結果用數量表示,這種數量表示就是隨機變數。更理論一點理解就是,隨機變數是定義在樣本空間上的乙個函式!我沒有見過函式值是複數的,很多書中也是這樣定義的,就是這個函式是實值函式!

隨機變數一般用大寫字母來表示,x,y,z等, 每乙個樣本點對應唯一乙個隨機變數值,那麼就可以用隨機變數的條件限制出樣本點的集合,那麼這就是事件了。 例如,我們研究投擲硬幣這個隨機現象,出現的結果有兩種,一種是正面,一種是反面,這兩種結果組成樣本空間,每乙個結果是乙個樣本點,定義乙個隨機變數x,當隨機現象的結果為正面時,x=1,當結果為反面時,x=0,這些定義都滿足 隨機變數的定義,那麼x=0就是乙個基本事件了,概率是定義在事件上的,那麼p(x=0)便是乙個概率,它表示了「投擲硬幣這種隨機現象出現反面這種結果組成的事件的概率」。 這裡我們考慮的是離散的情況,所謂離散,指的是 隨機變數的值是有限的或者可列的,注意可列是無限的特殊形式。還有一種情況,例如生小孩現象,這種現象的結果又很多種情況,比如新生兒的性別,新生兒的體重,新生兒的身高,新生兒的眼睛間距都可以用來表示這個現象的結果,比如,某某生了乙個小孩,往往我們會說某某生了乙個女孩,或者某某生了乙個8斤的小傢伙,我們已經潛移默化的說出了我們關心的是某個指標。生小孩這種隨機現象的結果有無窮多個,儘管我們無法確定,但是在我們有生之年,也許人類會永遠活在地球上,所以新生兒一直會出現,這種現象的樣本點就是每個新生兒,樣本空間就是所有新生兒的全體,新生兒有無限多個。 我們在這個樣本空間上定義隨機變數,新生兒性別為男孩時x=0,新生兒性別為女孩時,x=1,這裡不考慮其它情況,儘管還有其它可能;在同乙個樣本空間上,在繼續定義另乙個隨機變數y,它表示新生兒的體重;隨機變數z表示新生兒的身高。如果我們認為概率反應的是事物內部本質的話,x=0或者=1應該可以用某個穩定值來表示他的可能性,我們就說這個是他們的概率了。如何確定這個概率呢?用古典方法,我們認為男女有相同的可能;又可以用統計的方法,在某一段時間內,統計某個地區的新生兒性別,可以用相應性別出生的頻率來估計為某個性別的概率。對於y和z,這顯然是連續的隨機變數,我們很難用古典概率方法研究每個值出現的可能性,依然可以使用頻率來表示,在保留誤差的條件下,比如,我們搞一些區間,(0,1] (1,2] ....等等,如果觀測值(得到的某個樣本點的相應隨機變數值)比較少,我們可以把區間劃的大一點,如果比較多,相應劃多一點,這種劃分沒有嚴格的規則,至少我現在沒有想到,只是根據實際情況設定就可以了。統計能獲得的樣本點的相應觀測值落在對應區間的個數,這樣就會得到乙個區域的頻率分布了,如果觀測值增多,我們就減小區間的寬度,當觀測值得個數趨近無窮了,我們區間的長度相應也趨近於無窮了,這樣我們就但是每個觀測值還保留著某個值,這個值不再是概率了,我們可以用密度來理解他。很多情況下,我們研究的隨機現象的樣本空間上定義的隨機變數連續的時候,我們會有一些相應的分布來研究它,比如正態分佈!什麼是分布呢? 離散隨機變數場合,隨機變數的取值概率都知道,這就是分布了。 連續場合,隨機變數的概率密度知道,他的分布就曉得了。 

問題想多了,我們會發現,實際上,很容易知道隨機變數後面的問題,不好去拿出我們研究的到底是什麼現象,這個現象是隨機現象,他的樣本點是什麼!!

知道了這些之後,我們還會研究相同樣本空間上不同隨機變數的關係問題! 將問題再提公升乙個等級了。 就是我們前面描述過的問題,新生兒的性別,體重,身高等隨機變數是同乙個樣本空間上的不同隨機變數啊。 

回到魚的問題上來先,我們逮了好多魚,很湊巧,這些魚只有兩種,假設為鱸魚和鮭魚,我們考慮任意在這些魚裡面拿出一條,它是什麼魚。 顯然樣本空間有限,某種魚也是有限的,如果我拿到每一條魚的條件相等,拿出一條魚,他是鱸魚的概率就是鱸魚的數量除以所有魚的數量。用隨機變數x=0,表示鱸魚,x=1表示鮭魚。我們再引入乙個隨機變數y表示魚的長度。研究有限的魚,y這個隨機變數我們只能用落在某個區間的魚的頻率來表示y的分布列。如果我們把研究物件擴大,自然界中我們認為兩種魚的數量是穩定的,如果我們捕到的魚作為自然界中魚的乙個隨機樣本,我們完全可以認為y是連續分布的,而且與自然界中這兩種魚的長度分布一致,事實上我們補到的魚很難作為自然界的乙個隨機樣本。也就是說這個樣本不一定能很好的反應自然界的真是情況。但是很多情況下,我們認為自然界中的某些隨機變數符合正太分布,儘管某個樣本不一定服從這個分布,我們還是估計他的期望和方差,並把它作為正太分布研究。

我們不考慮擴大的情況繼續思考這個問題,在我們捕到魚中繼續考慮呀,假設我們捕到的魚足夠多,我們暫且用連續的密度函式來描述y的分布情況。p(x,y)表示的是什麼意思呢?先假設有限樣本點,那麼每個樣本點對應x和y都有乙個值,這兩個值為在二維歐式空間中是乙個點,我們在y上用區間劃分,這樣出現在x=x,y屬於某個區間的魚的個數除以所補到魚的總數就是這個區間的頻率,如果魚足夠多,那麼我們就認為p(x,y)是關於y的連續函式了。p(x,y)就是x,y的聯合密度函式了。 再加個條件的問題來思考下,p(y|x),這個是x某個值時,y的概率密度,條件概率也是概率呀,不要跟聯合概率密度弄混了。例如,p(y|x=0)表示所捕的魚中所有鱸魚構成的集合中,y的分布情況。實際上條件概率是縮小了研究的範圍。

思考了這麼多,我們在提出乙個問題。當拿到了乙個魚,我們不能計算它的種類,我們可以計算它的長度,那麼長度一定,這條魚它屬於鱸魚或者鮭魚的概率有多大呢? p(x|y)就可以來解決這個問題了。我們可以使用貝葉斯公式來求解這個問題,p(x|y) = p(x,y) /p(y) = p(y|x)p(x) / p(y), p(y) = p(x=0)p(y|x=0) + p(x=1)p(y|x=1) 。

我們想找乙個比較好的t值,使得我們誤判的概率最小化,所以要考慮誤判的情況。 假設我們將y=t判成x=1 。分析這樣導致的結果是

p(x=1, y=t) 就構成了這種判別的錯誤概率密度,錯誤概率就是:

我們想要這個錯誤概率最小化,那麼我們會得到乙個優化問題,順便求出目標函式的導數。

令導數等於0,便可以求出最佳的t的位置了。 

接下來,再繼續考慮幾個問題,首先即使給出乙個最優的t,目標函式的值仍然很大,比如0.5,這個值可以理解為,我們的分類錯誤率是50%,確實有些大了。我們可以怎麼改進呢? 我們可以引入更多的特徵,從概率上就是說我們再繼續尋找同一些樣本空間上的函式,使得總體上誤差函式的最優值盡量的小。 

另外乙個問題就是,我們如何確定針對某一中魚的某個特徵的分布情況,一般情況下,我們會用統計的方法進行估計,這個需要分布已知,往往我們會假設他為某個分布,然後再根據有限樣本容量的樣本進行引數估計,這樣會帶來兩部分誤差,1、他是否真的滿足我們給定的分布,這一步的錯誤直接導致所有錯誤。2、我們的樣本是否可以很好的描述總體分布情況,這部分表示的引數估計的誤差。 這兩個問題帶來的是,如何明確某個隨機變數的分布,以及如何找到乙個可以估計總體分布的樣本。

這篇文章我沒有嚴格的分章節敘述,只是在順序,基於我自己的思考邏輯慢慢展開的,不管怎樣,我相信,並不會有很多人會認真讀完這篇文章,所以我也就不用不好意思了。哈哈。

囚犯生存概率引發的迴圈思考

有乙個囚犯,國王打算處決他,但仁慈的國王給了他乙個生還的機會。現在擺在他面前有兩個瓶子,乙個裡面裝了50個白球,乙個裝了50個黑球,這個囚犯有乙個機會可以隨便怎樣重新分配這些球到兩個瓶子中 當然,要保證不空 分配完了之後囚犯被蒙上眼睛,國王隨機取乙個瓶子給他,他在裡面摸出乙個球 因為蒙著眼睛,所以也...

幸福魚的2010

2010年,本命年,從開始,沒有懼怕,而是認為是乙個重要的過渡,從幼稚向成熟的乙個過渡的一年。沒有太多的大起大落,沒有大風大浪,過得平平淡淡,但卻能感覺到可以觸控的幸福。學習篇在這一年,自己的vc 資料庫等等一些方面的知識有了較大的進步,以前連計時器都不會寫 慚愧 8月份,在老闆和公司的催逼下,開始...

拾魚的女孩

回落的潮水在海灘遺留下許多魚兒,乙個小女孩忙碌著把一條條擱淺的魚送回大海。有人勸她別白費力氣了,那麼多的魚她怎麼救得完,而且沒有人在乎她的舉動。可是女孩頭也不抬地繼續 可是這條小魚,小魚在乎啊。說這個故事的是一位貧困的山區支教的志願者。有人說,支教都是一種沒有收效的浪費行為,因為它不可能從根本上改變...