第一次接觸這個概念是在總結lr和svm之間的區別的時候,lr是引數模型,svm是非引數模型。
今天來總結一下引數模型和非引數模型。
一、前言
引數模型(parametric model)和非引數模型(non-parametric model)作為數理統計學中的概念,現在也常用於機器學習領域。
在統計學中,引數模型通常假設總體(樣本、資料、隨機變數)服從某個分布,這個分布可以由一些引數確定,如正態分佈由均值(0)和方差(1)[此時,標準差也為1]確定,在此基礎上構建的模型稱為引數模型;
非引數模型對於總體的資料分布不做任何假設,或者說資料分布假設自由,只知道其資料分布式存在的,但是不知道資料的分布形式,更不知道分布的相關引數,只有在給定一些樣本的條件下,能夠依據非引數統計的方法進行推斷。
所以說,引數模型和非引數模型中的「引數」並不是模型中的引數,而是資料分布的引數。
從上述的區別中可以看出,問題中有沒有引數,並不是引數模型和非引數模型的區別。其區別主要在於總體的分布形式是否已知。而為何強調「引數」與「非引數」,主要原因在於引數模型的分布可以有引數直接確定。
需要注意的是,引數模型它的引數是有限的,可以指定出w
ww1,w
ww2,…,w
wwn;非引數模型也並不是沒有引數,而是引數的數目很多或者數目不確定。(注意:所謂「多」的標準,就是引數數目大體和樣本規模差不多)
機器學習實際上可以總結為學習乙個函式,通過輸入變數對映為輸出變數,由於這個函式的形式未知,所以需要選擇合適的方法來擬合這個函式。
二、引數模型
引數機器學習模型由於指定了目標函式的形式,所以可以極大地簡化這個學習的過程,但是同樣會限制學習的過程。所以引數機器學習模型包括兩個部分:
舉個線性回歸的例子,線性回歸作為常見的引數模型,它通過假設輸入變數與輸出變數之間具有線性關係,然後就可以設定目標函式為 y = a x + b ,需要做的就是通過合適的方法如最小二乘法來擬合目標函式的引數。
常見的引數機器學習模型有:
引數機器學習演算法的優點:
引數機器學習演算法的(缺點)侷限性:
三、非引數模型
非引數機器學習演算法對目標函式形式不做過多的假設,因此演算法可以通過對訓練資料進行擬合而學習出某種形式的函式。
常見的非引數機器學習模型有:
非引數機器學習演算法的優點有:
非引數機器學習演算法的(缺點)侷限性:
速度慢:因為需要訓練跟多的引數,所以訓練過程通常比較慢
過擬合:有較高的風險發生過擬合,對於**的效果解釋性不高
四、總結
通過對比引數模型和非引數模型的特點,可以得知引數模型對訓練資料的大小要求不如非引數模型高,因為引數模型通過對擬合函式(目標函式)進行假設,所以只需要對引數進行擬合即可;而非引數模型由於需要從資料中發掘資料之間關係,所以對資料量要求較高。
通常說到的機器學習的黑盒特性,一般指的就是非引數機器學習模型。因為它不需要做出假設,並且需要擬合很多引數,所以它的解釋性就降低了。所以相比而言,引數機器學習模型由於對資料做出了理想的假設,所以得到的模型更加魯棒,所以解釋性也就更高。
參考
引數模型與非引數模型
引數模型 非引數模型 以及半引數模型 的概念應該源自於統計學中。統計專業中有一門課程叫做 非引數統計 研究的物件就是秩檢驗 核密度估計等。在統計學中,引數模型通常假設總體 隨機變數 服從某乙個分布,該分布由一些引數確定 比如正太分布由均值和方差確定 在此基礎上構建的模型稱為引數模型 非引數模型對於總...
機器學習中引數模型和非引數模型
網上關於機器學習中的引數模型和非引數模型之間的解釋並沒有乙個完全一致的解答,有從是不是對資料的分布做了相關假設進行分析的 也有是從模型的參數量大小進行解答的 二者好像是一致的,但是個人覺得如下使用是不是對資料分布進行了假設來區分並不是特別好理解。非引數模型 non parametric model ...
引數模型投影
include io操作 include include include include include include include 顯示庫 include 簡單顯示點雲 include pcl控制台解析 include 包含fpfh加速計算的omp 多核平行計算 include 特徵的錯誤對應...