高斯過程回歸高斯過程的直觀指南

高斯過程是一種強大的回歸和分類演算法。它最大的優勢是能夠對自身的不確定性做出可靠的估計。本文目標是讓您直觀地了解什麼是高斯過程。

內容：

機器學習使用我們擁有的資料(稱為訓練資料)來學習我們可以用來**我們尚未擁有的資料的函式。最簡單的例子是線性回歸，在這裡我們學習一條線的斜率和截距，這樣我們就可以從它們的水平位置**點的垂直位置。如下所示，訓練資料為藍點，學習函式為紅線。

機器學習是線性回歸的延伸(在某些方面)。首先，現代的機器學習(ml)處理的資料複雜得多，而不是學習乙個函式來計算乙個與線性回歸類似的另乙個數字，我們可以處理不同的輸入和輸出，例如:

其次，現代機器學習(ml)使用更強大的方法來提取模式，深度學習只是其中之一。高斯過程是這些方法中的一種，它們的主要區別是它們與不確定性的關係。

不確定性可以表示為一組可能的結果及其各自的可能性 - 稱為概率分布

概率分布最明顯的例子是擲乙個六面骰子的結果，即任何特定面的概率為六分之一。

這是離散概率分布的乙個例子，因為可能的結果是有限的。在離散情況下，概率分布就是可能結果和它們發生的概率的列表。在許多現實場景中，連續概率分布更為合適，因為結果可以是任意實數，下一節將討論其中的乙個示例。

另乙個重要的概念在後面會很有用，那就是從概率分布中抽樣。這意味著從一組可能的結果到乙個真實的結果。

貝葉斯推理歸結為一種基於我們觀察到的證據(evidence)更新我們對世界的信念(beliefs )的方法。在貝葉斯推理中，我們對世界的看法通常表示為概率分布，貝葉斯規則告訴我們如何更新這些概率分布。

貝葉斯統計為我們提供了基於新資料更新我們的信念(用概率分布表示)的工具

讓我們來看乙個貝葉斯推理的說明性例子——我們將根據一些證據調整我們對歐巴馬身高的看法。

讓我們假設我們從未聽說過巴拉克•歐巴馬，或者至少我們不知道他的身高。但是我們知道他是乙個居住在美國的男性。因此，在看到任何證據之前，我們相信歐巴馬的身高(在貝葉斯術語中，這就是我們之前的信念)應該是美國男性高度的分布。

現在讓我們假設維基百科不存在，讓我們觀察一些**形式的證據。

我們更新的信念看起來像這樣。

我們可以看到，歐巴馬肯定比平均水平更高，略高於其他幾位世界領導人，但我們不能確定歐巴馬究竟有多高。所顯示的概率分布仍然反映了歐巴馬平均身高的可能性很小，而且**中的其他人都非常短。

我們可以看到歐巴馬確實比一般人高，略高於其他幾位世界領導人，但是我們不能確定他到底有多高。圖中所示的概率分布仍然反映出歐巴馬是平均身高的可能性很小。

現在我們知道如何表示數字值(例如高度或骰子結果)的不確定性。

高斯過程(gaussian process, gp)是概率論和數理統計中隨機過程(stochastic process)的一種，是一系列服從正態分佈的隨機變數(random variable)在一指數集(index set)內的組合。

由於高斯過程讓我們描述了函式的概率分布，我們可以使用貝葉斯規則通過觀察訓練資料來更新我們的函式分布。

為了強化這種直覺，我將通過高斯過程的貝葉斯推理的例子，這與上一節中的例子完全類似。我們不會根據**更新我們對歐巴馬身高的看法，而是會根據該函式的一些樣本更新我們對未知函式的看法。

我們對未知函式的先驗資訊在下面視覺化。右邊是我們的高斯過程的均值和標準差 - 我們對函式沒有任何了解，因此我們的均值的最佳猜測是在實數的中間，即0。

在左邊的每一行都是函式分布的乙個樣本，我們的知識的缺乏反映在可能的函式的廣泛範圍和顯示的函式形狀的多樣性上。從高斯過程中取樣就像擲骰子，但每次你得到乙個不同的函式，可能會得到無窮多個可能的函式。

我們不是觀察一些歐巴馬的**，而是在不同的時間點觀察一些未知函式的輸出。對於高斯過程，我們的證據是訓練資料。

現在，我們看到了一些證據，讓我們使用bayes規則來更新我們關於獲得後高斯過程的函式的信念，也就是我們對函式的更新信念。

與歐巴馬可能的身高分布範圍相似，你可以看到的是函式分布較窄。更新的高斯過程受限於擬合我們訓練資料的可能函式 - 我們的函式的平均值擷取所有訓練點，每個取樣函式也是如此。我們還可以看到標準偏差遠離我們的訓練資料，這反映了我們對這些領域缺乏了解。

乙個關鍵的好處是，擬合gp的不確定性隨著訓練資料的增加而增加 - 這是gps roots在概率和貝葉斯推理中的直接結果。

上面我們可以看到在乙個簡單的藍點和紅點的分離任務中，通過不同的方法學習到的分類函式。

高斯過程要結合專業知識

當您使用gp對問題進行建模時，您可以通過選擇核來塑造您的先前信念(對這些內容的完整解釋超出了本文的範圍)。

這使您可以用許多不同的方法來塑造擬合函式。你可能想知道，基於上面討論的不確定性特性，高斯過程是如何超越它們的訓練資料進行泛化的。答案是gp的泛化特性幾乎完全取決於核的選擇。

高斯過程在計算上是昂貴的。

高斯過程是非引數方法。引數方法將關於訓練資料的知識提煉成一組數字。對於線性回歸，這只是兩個數字，即斜率和截距，而其他方法(如神經網路)可能有數百萬。這意味著在訓練之後，進行**的成本僅取決於引數的數量。

然而，由於高斯過程是非引數的(雖然核超引數模糊了影象)，每次進行**時都需要考慮整個訓練資料。這不僅意味著訓練資料必須在推斷時儲存，而且還意味著**的計算成本隨著訓練樣本數量的增加而增加。

高斯過程的世界將在可預見的情況下仍然令人興奮，因為正在進行研究以將其概率優勢帶給目前由深度學習主導的問題 - 稀疏和小批量高斯過程增加其對大型資料集的可擴充套件性，而深度和卷積高斯過程將高維和影象資料置於可達範圍內。

高斯過程回歸 高斯過程的直觀指南