機器學習中的正負樣本

在機器學習中經常會遇到正負樣本的問題，花了一點時間查詢資料，基本上弄明白了一點到底是怎麼回事，記錄在這裡以便以後檢視，也希望能夠幫助到有疑惑的人，當然也希望理解的比較透徹的人看到之後對於理解的不對的地方能夠予以指點。

首先我將這個問題分為分類問題與檢測問題兩個方面進行理解。在分類問題中，這個問題相對好理解一點，比如人臉識別中的例子，查到的資料中介紹的比較清楚的**如下（其中的截圖如下，正樣本很好理解，就是人臉的，負樣本的選取就與問題場景相關，具體而言，如果你要進行教室中學生的人臉識別，那麼負樣本就是教室的窗子、牆等等，也就是說，不能是與你要研究的問題毫不相關的亂七八糟的場景，這樣的負樣本並沒有意義，還有乙個比較好的**是（

在檢測的問題中，我理解著就不是那麼簡單了，因為檢測問題需要做的事情是指出**有什麼，也就是既要給出框，又要說明框中是什麼，在這種情況下，我們所具備的資料就是一些人工標註的，這些上有框，並且會給出框中的物體類別，我們需要運用這些資料生成訓練中的正負樣本資料，參考了faster以及ssd兩種檢測框架中對於正負樣本的選取準則，我的理解如下：

首先，檢測問題中的正負樣本並非人工標註的那些框框，而是程式中（網路）生成出來的框框，也就是faster rcnn中的anchor boxes以及ssd中在不同解析度的feature map中的預設框，這些框中的一部分被選為正樣本，一部分被選為負樣本，另外一部分被當作背景或者不參與運算。不同的框架有不同的策略，大致都是根據iou的值，選取個閾值範圍進行判定，在訓練的過程中還需要注意均衡正負樣本之間的比例。

我理解著，在fast的框架中，也是需要多ss演算法生成的框框與gt框進行iou的判斷，進而選取正負樣本，總之，正負樣本都是針對於程式生成的框框而言，而非gt資料。

機器學習中的正負樣本

機器學習中的正負樣本

機器學習中的正負樣本

機器學習樣本資料集，訓練正負樣本

相關推薦