1.訓練集(training set/data)/訓練樣例(training examples):用來進行訓練,也是產生模型或者演算法的資料集
測試集(testing set/data)/測試樣例(testing examples):用來專門進行測試已經學習好的模型或者演算法資料集
特徵向量(features / feature vector):屬性集合,通常用乙個向量來表示,附屬於乙個例項
標記(label):c(x) , 例項類別的標記
正例(positive example)
反例(negative example)
2. 分類(classification):目標標記為類別型資料
回歸(regression):目標標記為連續性數值
3.有監督學習(supervised learning):訓練集有類別標記(class label)
無監督學習(unsupervised learning):無類別標記
半監督學習(semi-supervised learning):有類別標記的訓練集+無標記的訓練集
4.機器學習步驟框架
(1)把資料拆分成訓練資料和測試資料
(2)用訓練集和訓練集的特徵向量來訓練演算法
(3)用學習來的演算法運用在測試集上評估演算法(涉及調整引數 parameter tuning)
機器學習 訓練集 驗證集 測試集
為什麼要將資料集分為訓練集 驗證集 測試集三部分?對於很多機器學習的初學者來說,這個問題常常令人很迷惑,特別是對於驗證集和測試集的區別更讓人摸不到頭腦。下面,我談一下這三個資料集的作用,及必要性 訓練集 顯然,每個模型都需要訓練集,訓練集的作用很明顯,就是直接參與模型的訓練過程。測試集 測試集完全不...
機器學習的訓練集 驗證集和測試集
在機器學習中,最佳的資料分類情況是把資料集分為三部分,分別為 訓練集 train set 驗證集 validation set 和測試集 test set 訓練集很好理解就是訓練我們的模型。那麼驗證集和測試集有什麼作用?首先需要了解的是在乙個機器學習模型中,模型的引數分為普通引數和超引數,普通引數比...
機器學習中的訓練集 驗證集 測試集
訓練集用來訓練模型,即確定模型的權重和偏置這些引數,通常我們稱這些引數為學習引數。而驗證集用於模型的選擇,更具體地來說,驗證集並不參與學習引數的確定,也就是驗證集並沒有參與梯度下降的過程。驗證集只是為了選擇超引數,比如網路層數 網路節點數 迭代次數 學習率這些都叫超引數。比如在k nn演算法中,k值...