機器學習常用術語

2022-05-26 03:24:12 字數 935 閱讀 9744

機器學習作為人工智慧的乙個重要領域,我們有必要對其基本術語有清晰的理解

(2) 空間 :就是表示「可能存在的取值」,比如模型空間就是表示「所有可能的模型的取值」,「引數空間」表示「所有可能的引數」,樣本空間表示「所有可能的樣本」。

(3)樣本:是指資料集中的每一條單獨的資料。如沒有說明,會預設資料集中有n個樣本,用符號:

特徵向量(feature vector):樣本中的

就是特徵向量,我們可以將特徵向量直接輸入模型(

),也可以先對特徵向量中的各個特徵(feature)進行預處理(preprocess),然後將預處理後的特徵向量作為模型的輸入(

),對特徵向量進行預處理這一步通常稱為資料預處理,此外,一般而言,我們會假設特徵向量是n維的列向量,即乙個特徵向量中會有n個特徵:

對於特徵而言,又可以分為兩種,離散型特徵和連續性特徵,離散型特徵的取值是離散的,比如顏色的分類,紅色、黃色、藍色等等,連續性特徵的取值是連續的,比如說人的身高,會有無線個取值。

標籤:即為上述樣本中的

,是模型的目標,我們學習的最終目標是將特徵向量空間中的每個特徵向量

在輸入模型

後,都能夠輸出相對應的、正確的標籤

。標籤也分離散型標籤跟連續性標籤.

(3) 資料集:資料的集合

(4) 訓練集:用於訓練模型的資料,即用於發現和**潛在關係的一組資料。

(5) 交叉驗證集:模型使用訓練集來進行訓練,並會時不時地觀察一下它在交叉驗證集上的表現來決定是否繼續訓練,以及是否需要調節自身的引數。

(6) 測試集:用來評估模型的效能的的資料,只有在使用訓練集來訓練模型並使用交叉驗證集來監督訓練後,才會使用測試集來看看模型的表現。

機器學習常用術語

機器學習作為人工智慧的乙個重要領域,我們有必要對其基本術語有清晰的理解 2 空間 就是表示 可能存在的取值 比如模型空間就是表示 所有可能的模型的取值 引數空間 表示 所有可能的引數 樣本空間表示 所有可能的樣本 3 樣本 是指資料集中的每一條單獨的資料。如沒有說明,會預設資料集中有n個樣本,用符號...

機器學習常用術語

泛化能力,過擬合,欠擬合,效能度量 泛化能力指的是機器學習演算法對新鮮樣本的適應能力。機器能從訓練樣本中學到適用於所有潛在樣本的普遍規律,在遇到新樣本中能做出正確判別的能力 把樣本中的一些雜訊特性也學習下來了,泛化能力差 比如決策樹演算法中,id3演算法中的編號會被該演算法認為是資訊增益最大的屬性,...

機器學習之常用術語

1.機器學習的時候對選擇不同模型的時候,先分辨樣本呢的離散程度,那麼離散和連續屬性的判斷方法?離散值是確定的一些值,連續值是無序,有範圍的。比如硬幣只有 0和1 兩種情況,就叫離散值,而人的身高有無數種情況,就叫連續值。2.首先談談什麼是過擬合呢?什麼又是欠擬合呢?網上很直接的理解如下 網上很直接的...