學習路線 入門機器學習基本概念之簡述極大似然估計

2021-08-16 11:15:35 字數 801 閱讀 5335

極大似然估計是一種引數估計的方法。

先驗概率是 知因求果,後驗概率是 知果求因,極大似然是 知果求最可能的原因。

即它的核心思想是:找到引數 θ 的乙個估計值,使得當前樣本出現的可能性最大。

例如,當其他條件一樣時,抽菸者患肺癌的概率是不抽菸者的 5 倍,那麼當我們已知現在有個人是肺癌患者,問這個人是抽菸還是不抽菸?大多數人都會選擇抽菸,因為這個答案是「最有可能」得到「肺癌」這樣的結果。

為什麼要有引數估計

當模型已定,但是引數未知時。

例如我們知道全國人民的身高服從正態分佈,這樣就可以通過取樣,觀察其結果,然後再用樣本資料的結果推出正態分佈的均值與方差的大概率值,就可以得到全國人民的身高分布的函式。

為什麼要使似然函式取最大

極大似然估計是頻率學派最經典的方法之一,認為真實發生的結果的概率應該是最大的,那麼相應的引數,也應該是能讓這個狀態發生的概率最大的引數。

極大似然估計的計算過程

寫出似然函式

因為 f(xi|θ) 一般比較小,n 比較大,連乘容易造成浮點運算下溢。求出使得對數似然函式取最大值的引數的值

3, 例子

假如乙個罐子裡有黑白兩種顏色的球,數目和比例都不知道。

假設進行一百次有放回地隨機取樣,每次取乙個球,有七十次是白球。

問題是要求得罐中白球和黑球的比例?

機器學習入門基本概念

資料集 data set 示例 instance 屬性 attribute 又稱特徵 feature 樣本空間 sample space 特徵向量 feature vector 維數 dimensionality 標記 label 學習 learning 訓練資料 training data 回歸 ...

機器學習入門 1 基本概念

很多人剛接觸機器學習或神經網路的時候,被一些名詞給弄糊塗了,什麼人工智慧,機器學習,統計機器學習,神經網路,深度學習等。所以學習機器學習的第一步,是要理清楚這幾者的關係。為此,我利用了乙個圖來顯示出幾者的關係。其中,機器學習是人工智慧領域的乙個分支,也是最能夠體現出智慧型的乙個分支。神經網路是機器學...

深度學習之機器學習基本概念

訓練集 用來訓練,產生模型或者演算法的資料集 測試集 用來測試以及學習好的模型或者演算法的資料集,假設只知道特徵不知道結果,用模型得出的結果與已有的結果進行對比 特徵向量 屬性的集合,通常用向量來表示,與具體的例項有關。影響結果的因素 有關 標記 label 對結果類別的標記 正例 正面的結果,比如...