機器學習是乙個比較寬泛的概念,主要包括有監督學習,無監督學習,強化學習等,每個分類又有很多不同的演算法,在使用時需要根據不同的場景進行選擇,這個將會在後續的部落格中涉及,這裡就不展開敘述。現在的機器學習主要都是基於對現有樣本的觀測分析(統計)然後再對未知樣本的**(概率),我自己乙個不嚴謹的說法就是機器學習是一種特殊的概率統計表現形式。
概率與統計的水很深,我們不是為了學習概率與統計,而是為了進行 機器學習而補充相關的概率統計知識,關鍵是打通概率與統計和機器學習的關係。概率統計根據是否已知整體進行區分:統計是已知乙個樣本的分布,並從中取樣若干樣本來計算分布的整體情況,如均值和方差等;概率是已知整體的情況,去**某一種情況發生的概率,統計和概率互為逆工程。
乙個有監督學習演算法,先要將帶有標籤的樣本特徵輸入到演算法模型中進行訓練,然後將標籤未知的樣本特徵餵給訓練好的演算法模型得到乙個輸出**。對帶有標籤樣本特徵進行訓練的過程就是我們統計的應用,就像對乙個裝有若干白球和黑球的桶我們進行多次的抓取取樣,並記錄我們取樣的結果,根據取樣的結果我們就可以估計出桶裡的黑球和白球的分布,均值和方差等資訊,這就是訓練過程(統計);經過多次實驗(當n趨於無窮大的時候,就有了大數定理)我們就可以比較準確的統計出所有樣本的整體情況,有了對樣本整體分布感知的模型,當來乙個新的樣本特徵的時候,我就可以**這個樣本出現對應標籤發生的概率是多少,這就是有監督學習演算法,**和訓練與概率統計的關係。
1.有了對概率統計的了解,我們可以基於各個分布的特性來評估模型和樣本。對於樣本特徵分布非常相似的我們可以去掉其中某乙個特徵,對樣本特徵與標籤的分布完全不一致的,如果樣本特徵比較多可以考慮暫時去掉這一維度的特徵。
訓練,驗證,測試樣本希望是同分布的原因就是因為你在訓練的時候用按照訓練樣本就行統計的,如果**的時候樣本分佈發生變化,那**的結果可想而知。
統計估計的是分布,機器學習訓練出來的是模型,模型可能包含了很多分布。
概率統計在機器學習中的作用
在進行機器學習的時候,我們會接觸到很多的數學知識,而這些數學知識有很多,比如說線性代數和概率統計。如果線性代數可以看成是數量還有結構的組合的話,那麼概率統計就可以看成是模型還有資料的組合。那麼大家是否知道概率統計在機器學習中的作用是什麼呢?下面我們就給大家解答一下這個問題。其實在機器學習中,模型和資...
輕鬆搞定機器學習中的概率統計知識
網上關於機器學習中的數學基礎知識的文章非常混雜。有些文章推薦太過全面,比如推薦 mit 線性代數 微積分入門 概率論入門 等系列課程和書籍,這對初學者非常的不友好。而有些文章又過於簡略,機器學習雖說不用精通各類數學知識,但全面理解相關數學基礎也是非常關鍵的,很多作者想一篇文章概括所有在機器學習中重要...
概率統計與機器學習 極大後驗概率以及正則化項
舉例 假設有乙個根據身高h和衣服顏色飽和度s兩個引數的模型來估計乙個人是男的還是女的性別識別系統 思考 既然我們選擇了乙個模型,用這個模型去預估觀測值來得到的最大似然權值,那麼又有什麼手段來評估我們這個模型選擇的好壞 公式證明 ln p w d ni 1 lnp xi w lnp w nln 2 n...