機器學習中的ground truth

2022-09-07 07:45:09 字數 1171 閱讀 2906

機器學習包括有監督學習(supervised learning),無監督學習(unsupervised learning),和半監督學習(semi-supervised learning).

在*有監督學習中,資料是有標註的,以(x, t)的形式出現,其中x是輸入資料,t是標註.正確的t標註是ground truth, 錯誤的標記則不是。(也有人將所有標註資料都叫做ground truth)

由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料,y為模型**的值。

標註會和模型**的結果作比較。在損耗函式(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss / error)。 比如在最小方差中:

因此如果標註資料不是ground truth,那麼loss的計算將會產生誤差,從而影響到模型質量。

比如輸入三維,判斷是否**:

1.錯誤的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。

這裡標註資料1是ground truth, 而標註資料2不是。

**資料1 y = -1

**資料2 y = -1

2. 正確的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。(改為ground truth)

這裡標註資料1和2都是ground truth。

**資料1 y = -1

**資料2 y = -1

由於使用錯誤的資料,對模型的估計比實際要糟糕。另外,標記資料還被用來更新權重,錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。

機器學習 機器學習中的損失函式

在機器學習中,損失函式是用來衡量 結果與實際值之間差別大小的指標。一般的損失函式有5五種 l m 01ifm 0ifm 0 主要用於maximum margin的分類演算法,如svm演算法。hinge損失函式的描述如下式 l y max 0 1 t y 這裡t 1 or 1 y是 值,而t 是實際真...

機器學習 機器學習中的基礎概念

基本概念 訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,回歸 概念學習 人類學習概念 鳥,車,計算機 定義 概念學習是指從有關某個布林函式的輸入輸出訓訓練陽曆中推斷出該布林數 例子 學習 享受運動 這一概念 小明進行水上運動,是否享受運動取決於很多因素 這裡舉乙個例子 小明是否進行...

機器學習2 1 機器學習中的特徵選擇

特徵提取演算法分為特徵選擇和特徵抽取兩大類 常採用特徵選擇方法。常見的六種特徵選擇方法 df document frequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 mi mutual information 互資訊法 互資訊法用於衡量特徵詞與文件類別直接的資訊量...