機器學習中引數模型和非引數模型

網上關於機器學習中的引數模型和非引數模型之間的解釋並沒有乙個完全一致的解答，

有從是不是對資料的分布做了相關假設進行分析的

也有是從模型的參數量大小進行解答的

二者好像是一致的，但是個人覺得如下使用是不是對資料分布進行了假設來區分並不是特別好理解。

非引數模型（non-parametric model）和引數模型（parametric model）作為數理統計學中的概念，現在也常用於機器學習領域中。

在統計學中，引數模型通常假設總體服從某個分布，這個分布可以由一些引數確定，如正態分佈由均值和標準差確定，在此基礎上構建的模型稱為引數模型；非引數模型對於總體的分布不做任何假設或者說是資料分布假設自由，只知道其分布是存在的，所以就無法得到其分布的相關引數，只能通過非引數統計的方法進行推斷。

所以說，引數模型和非引數模型中的「引數」並不是模型中的引數，而是資料分布的引數。

看了各種解答之後，我覺得二者可以這樣進行區分：

一、首先需要明確的是非引數模型並不是說模型中沒有引數！

這裡的non-parametric類似單詞priceless，並不是沒有價值，而是價值非常高，無價，也就是引數是非常非常非常多的！（注意：所謂「多」的標準，就是引數數目大體和樣本規模差不多）

而：可以通過有限個引數來確定乙個模型，這樣的方式就是「有引數模型」，也就是這裡說的引數模型，如線性回歸、logistic回歸（假定樣本維度為n，則假定n個引數theta1,theta2...thetan）。

二、其次：引數模型：對學到的函式方程有特定的形式，也就是明確指定了目標函式的形式 -- 比如線性回歸模型，就是一次方程的形式，然後通過訓練資料學習到具體的引數。

所以引數機器學習模型包括兩個部分：

1、選擇合適的目標函式的形式。

2、通過訓練資料學習目標函式的引數。

通常來說，目標函式的形式假設是：對於輸入變數的線性聯合，於是引數機器學習演算法通常被稱為「線性機器學習演算法」。

三、非引數機器學習演算法：對於目標函式形式不作過多的假設的演算法稱為非引數機器學習演算法。通過不做假設，演算法可以自由的從訓練資料中學習任意形式的函式。

對於理解非引數模型的乙個好例子是k近鄰演算法，其目標是基於k個最相近的模式對新的資料做**。這種理論對於目標函式的形式，除了相似模式的數目以外不作任何假設。

四、最後：

常見的引數機器學習模型有：

1、邏輯回歸（logistic regression）

2、線性成分分析（linear regression）

3、感知機（perceptron）（假設分類超平面是wx+b=0）

引數機器學習演算法有如下優點:

1、簡潔：理論容易理解和解釋結果。

2、快速：引數模型學習和訓練的速度都很快。

3、資料更少：通常不需要大量的資料，在對資料的擬合不很好時表現也不錯。

引數機器學習演算法的侷限性：

1、拘束：以指定的函式形式來指定學習方式。

2、有限的複雜度：通常只能應對簡單的問題。

3、擬合度小：實際中通常無法和潛在的目標函式完全吻合，也就是容易出現欠擬合。

常見的非引數機器學習模型有：

1、決策樹

2、樸素貝葉斯

3、支援向量機（svm的例子中，svm的引數α數目和樣本數目相同，從定義看來，因為引數數目和樣本規模相當，所以屬於無引數模型。當然，svm通過得到支撐向量的方式，只有若干樣本的引數α不為0，從這個角度，svm還屬於「稀疏模型」，這又屬於另外一碼事了。）

4、神經網路

非引數機器學習演算法的優勢有：

1、可變性：可以擬合許多不同的函式形式。

2、模型強大：對於目標函式不做假設或者作出很小的假設。

3、表現良好：對於訓練樣本資料具有良好的擬合性。

非引數機器學習演算法的侷限性：

1、需要更多資料：對於擬合目標函式需要更多的訓練資料。

2、速度慢：因為需要訓練跟多的引數，所以訓練過程通常比較慢。

3、過擬合：有較高的風險發生過擬合，對於**的效果解釋性不高。

機器學習中引數模型和非引數模型

引數模型與非引數模型

ML 什麼是引數模型和非引數模型

引數模型投影

機器學習中引數模型和非引數模型

引數模型與非引數模型

ML 什麼是引數模型和非引數模型

引數模型投影

相關推薦