本人和大家一樣,身為碼農出身,剛接觸機器學習想好好學習的時候總能看到各式各樣的數學公式以及看起來就讓人頭大的函式表示式和推導過程。剛開始就是硬著頭皮去一步一步的看推導。看著看著發現自己越看越迷糊,成果就是機器學習知識還是一竅不通,可以說是還沒入門。後面自己試著跳過複雜的公式和推敲過程,先從概念入手,看到公式了就跳過,但要弄清楚其表達的意義,例如下面提到的roc曲線。不需要真正的看懂,只需弄懂其意義。方便理解其在機器學習中存在的真正意義,然後按照機器學習資料整理、資料處理、訓練、模型評估、調參的流程往下走,在前進的過程中將咱們前面看到的不明白的數學公式及其意義嵌入,發現就簡單了很多。針對以上目的,整理了一些比較重要的函式概念等,不全的內容後續會相繼補充。
1、似然函式
一句話概括:似然函式是引數的函式。
解釋:引數θ
在給定輸出為x的情況下的似然函式等於,在給定引數為θ
的情況下,取x的概率。注意:此處的豎槓並不表示條件件概率,僅僅是一種取該值的含義。
我的理解:在統計學中,隨機變數會服從某個分布,此分布帶有引數。引數不同,隨機變數對應同乙個值的概率也不同。一般來說我們給定引數,然後來計算概率。但是似然函式是先給定事件的結果,然後求引數在此結果下的似然函式。似然函式重要的不是值的大小,而是在哪個引數值下,對應的似然函式最大。也就求出了引數最為合理的取值。
2、線性函式
在數學裡,線性函式是指那些線性的函式,但也常用作一次函式的別稱,儘管一次函式不一定是線性的。線型函式是乙個比較恰當的同義詞。
線性函式可以表達為斜截式:
f(x) = ax + b.
其中a為斜率且a!=0,而b是函式在y軸上的截距,即函式影象與y軸相交點的座標。
3、損失函式(loss function)
表示**函式的輸出值與樣本標籤值之間的誤差。
4、凸函式
凸函式是指一類定義在實線性空間上的函式。特徵如下:
(1).若f為定義在凸集s上的凸函式,則對任意實數β≥0,函式βf也是定義在s上的凸函式;
(2).若f1和f2為定義在凸集s上的兩個凸函式,則其和f=f1+f2仍為定義在s上的凸函式;
(3).若fi(i=1,2,…,m)為定義在凸集s上的凸函式,則對任意實數βi≥0,函式βifi也是定義在s上的凸函式;
(4).若f為定義在凸集s上的凸函式,則對每一實數c,水平集sc=是凸集.
5、凹函式
數學模型中的一種,在數學當中,凹函式是
凹函式是乙個定義在某個向量空間的凸集c(區間)上的實值函式f。設f為定義在區間i上的函式,若對i上的任意兩點x1
如果乙個可微函式f它的導數f'在某區間是單調上公升的,也就是二階導數若存在,則在此區間,二階導數是大於零的,f就是凹的;即乙個凹函式擁有乙個**的斜率(當中**只是代表非上公升而不是嚴謹的**,也代表這容許零斜率的存在。)
如果乙個二次可微的函式f,它的二階導數f'(x)是正值(或者說它有乙個正值的加速度),那麼它的影象是凹的;如果二階導數f'(x)是負值,影象就會是凸的。當中如果某點轉變了影象的凹凸性,這就是乙個拐點。
如果凹函式(也就是向上開口的)有乙個「底」,在底的任意點就是它的極小值。如果凸函式有乙個「頂點」,那麼那個頂點就是函式的極大值。
如果f(x)是二次可微的,那麼f(x)就是凹的當且僅當f''(x)是正值。
6、對角陣
只有對角線上有非0元素的矩陣稱為對角矩陣,或說若乙個方陣除了主對角線上的元素外,其餘元素都等於零,則稱之為對角陣。
7、數量矩陣
對角線上的元素相等的對角矩陣稱為數量矩陣。
8、roc曲線
對於二分類問題,我們可以調整分類器的靈敏度從而得到不同的分類結果。將各種靈敏度下的準確率指標連成一條曲線,就是roc曲線。通常roc越陡峭、越高演算法的效能越好。
9、泛化誤差
泛化誤差可以分解成偏差和方差。偏差(bias)是模型本身導致的誤差,是模型**值的數學期望和真實值之間的差距。方差(variance)是由於訓練樣本集的小波動敏感而導致的誤差,可以理解為模型**值的變化範圍,即模型**值的波動程度。
模型的總體誤差可以分解為偏差的平方與方差之和。
10、均方誤差
**值與樣本真實值的誤差平方和。
11、正則化
在**函式的型別選定之後,人們能控制的只有函式的引數。為了防止過擬合,可以在損失函式後加上乙個懲罰項,對複雜的模型進行懲罰,強行讓模型的引數值盡可能小以使模型變得簡單,加入懲罰函式後:
l(x) = .....(複雜函式) + zr(x)
函式的後半部分稱為正則化項,這裡的目標是盡可能地讓他的值小,即引數為0或接近0.
12、l2範數[平方和]
向量所有元素的平方和的開平方。
13、l1範數[絕對值之和]
向量中各個元素絕對值之和。
l2和l1範數均用於處理過擬合問題。
機器學習裡面的基函式 機器學習 核函式基本概念
機器學習 核函式基本概念 多項式空間和多項式核函式 定義1.1 核或正定核設x 是nr中的乙個子集,稱定義在xx 上的函式zx 是核函式,如果存在乙個從x到 hilbert空間h 的對映hxx 1.1 使得對任意的xz xzxz x 1.2 都成立。其中 表示hilbert空間h 中的內積。定義1....
機器學習裡面的樹形模型
1.決策樹不用考慮scaler。2,xgboost 缺失值都可以不用考慮。3.libsvm的資料格式及使用方法總結 首先介紹一下 libsvm 的資料格式 label 1 value 2 value label 是類別的標識,比如上節 train.model 中提到的 1 1 你可以自己隨意定,比如...
機器學習 機器學習中的損失函式
在機器學習中,損失函式是用來衡量 結果與實際值之間差別大小的指標。一般的損失函式有5五種 l m 01ifm 0ifm 0 主要用於maximum margin的分類演算法,如svm演算法。hinge損失函式的描述如下式 l y max 0 1 t y 這裡t 1 or 1 y是 值,而t 是實際真...