在先不考慮泛化能力的情況下(例如通過正則化等方式來提高模型泛化能力),根據歷史資料訓練得到演算法引數,也就是說
模型訓練過程是在逐步獲得,最大擬合訓練集的對應引數值,
並且期望這些引數可以在未帶label值的資料中計算得到label的值
那訓練模型目的就是希望得到最擬合已有資料分布(資料集)的對應引數值(多次強調)
本來通過邏輯回歸來解析整乙個過程:
假設已經有n個樣本,樣本的標籤只有0和1兩類
我們把單個樣本看做乙個事件,那麼這個事件發生的概率就是:
這個函式不方便計算,它等價於
解釋下這個函式的含義,我們採集到了乙個樣本(xi
,yi)
(x_i, y_i)
(xi,y
i),對這個樣本,它的標籤是 y
iy_i
yi的概
率是 pyi
(1−p
)1−y
ip^(1-p)^
pyi(1
−p)1
−yi
(當y i=
1y_i=1
yi=
1,結果是p
pp;當yi=
0y_i=0
yi=
0,結果是1−p
1-p1−
p)如果我們採集到了一組資料一共n個
這個合成在一起的合事件發生的總概率怎麼求呢?
其實就是將每乙個樣本發生的概率相乘就可以了,即採集到這組樣本的概率:
這個相乘的函式就是已有的樣本分佈的似然函式
這裡引入極大似然估計的概念。
極大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的引數值。
例如已經存在的樣本分佈為30次y=0,70次y=1
那似然函式的值就等於p30p
70p^p^
p30p70
,那我們就通過求得使得似然函式p30p
70p^p^
p30p70
最大值的時候對應的p值,來得到最匹配已存在資料分布的p值
通過得到極大化似然函式時的對應引數值 也就是 得到最擬合已有資料分布的對應引數值
在已有樣本的情況下,使用梯度下降的方法,找出使似然函式最大(也就是損失函式最小)時對應的引數值,即等價於找出最擬合已有資料分布的對應引數值
mysql調優過程
最近需要mysql嘗試做專案,先做記錄 show create table snapshot close create table snapshot close ukey bigint 20 unsigned not null default 0 market code varchar 32 not...
Task3 模型調優
使用網格搜尋法對7個模型進行調優 調參時採用五折交叉驗證的方式 並進行模型評估 import pandas as pd import numpy as np from sklearn.model selection import gridsearchcv from sklearn.model sel...
模型選擇與調優(KNN)
一 交叉驗證 cross validation 將拿到的訓練資料,分為訓練和驗證集。以下圖為例 將資料分成4份,其中乙份作為驗證集。然後經過4次 組 的測試,每次都更換不同的驗證集。即得到4組模型的結果,取平均值作為最終結果。又稱4折交叉驗證。二 超引數搜尋 網格搜尋 通常情況下,有很多引數是需要手...