機器學習中ground truth的理解

2021-09-11 04:29:25 字數 1036 閱讀 2765

機器學習包括有監督學習(supervised learning),無監督學習(unsupervised learning),和半監督學習(semi-supervised learning).

在*有監督學習中,資料是有標註的,以(x, t)的形式出現,其中x是輸入資料,t是標註.正確的t標註是ground truth,錯誤的標記則不是。(也有人將所有標註資料都叫做ground truth)

由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料,y為模型**的值。

標註會和模型**的結果作比較。在損耗函式(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss / error)。 比如在最小方差中:

因此如果標註資料不是ground truth,那麼loss的計算將會產生誤差,從而影響到模型質量。

比如輸入三維,判斷是否**:

1. 錯誤的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。

這裡標註資料1是ground truth, 而標註資料2不是。

**資料1 y = -1

**資料2 y = -1

2. 正確的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改為ground truth)

這裡標註資料1和2都是ground truth。

**資料1 y = -1

**資料2 y = -1

由於使用錯誤的資料,對模型的估計比實際要糟糕。另外,標記資料還被用來更新權重,錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。

* 在半監督學習中,對標記資料也要進行比較

機器學習 機器學習中的損失函式

在機器學習中,損失函式是用來衡量 結果與實際值之間差別大小的指標。一般的損失函式有5五種 l m 01ifm 0ifm 0 主要用於maximum margin的分類演算法,如svm演算法。hinge損失函式的描述如下式 l y max 0 1 t y 這裡t 1 or 1 y是 值,而t 是實際真...

機器學習中評估指標 周志華《機器學習》筆記

問題環境 挑出來的西瓜有多少比例是好瓜 好瓜中有多少被挑出來了 混淆矩陣可以這麼解讀 第乙個字母表示我 的結果對還是錯,t就是true,f就是false 第二個字母表示,我 的是什麼正p positive 還是負 negative 矩陣對角線上的是我 對的 查準率,準確率,precision 挑出來...

機器學習 機器學習中的基礎概念

基本概念 訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,回歸 概念學習 人類學習概念 鳥,車,計算機 定義 概念學習是指從有關某個布林函式的輸入輸出訓訓練陽曆中推斷出該布林數 例子 學習 享受運動 這一概念 小明進行水上運動,是否享受運動取決於很多因素 這裡舉乙個例子 小明是否進行...