機器學習裡的ground truth

2021-09-01 14:56:37 字數 1558 閱讀 1298

機器學習包括有監督學習(supervised learning),無監督學習(unsupervised learning),和半監督學習(semi-supervised learning).

在有監督學習中,資料是有標註的,以(x, t)的形式出現,其中x是輸入資料,t是標註.正確的t標註是ground truth, 錯誤的標記則不是。(也有人將所有標註資料都叫做ground truth)

由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料,y為模型**的值。標註會和模型**的結果作比較。在損耗函式(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss / error)。 比如在最小方差中:

1 2m

∑i=1

m(y−

t)

2\frac \sum _ ^ ( y - t ) ^

2m1​i=

1∑m​

(y−t

)2因此如果標註資料不是ground truth,那麼loss的計算將會產生誤差,從而影響到模型質量。

比如輸入三維,判斷是否**:

1.錯誤的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。

這裡標註資料1是ground truth, 而標註資料2不是。

**資料1 y = -1

**資料2 y = -1

loss =1

2×2(

(−1−

1)2+

(−1−

1)2)

=2

\text = \frac \left( ( - 1 - 1 ) ^ + ( - 1 - 1 ) ^ \right) = 2

loss =2

×21​

((−1

−1)2

+(−1

−1)2

)=21.正確的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改為ground truth)

這裡標註資料1和2都是ground truth。

**資料1 y = -1

**資料2 y = -1

loss =1

2×2(

(−1−

1)2+

(−1+

1)2)

=1

\text = \frac \left( ( - 1 - 1 ) ^ + ( - 1 + 1 ) ^ \right) = 1

loss =2

×21​

((−1

−1)2

+(−1

+1)2

)=1由於使用錯誤的資料,對模型的估計比實際要糟糕。另外,標記資料還被用來更新權重,錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。

機器學習裡的kernel是指什麼?

先給個定義 核函式k kernel function 就是指k x,y 其中x和y是n維的輸入值,f 是從n維到m維的對映 通常而言,m n 是x和y的內積 inner product 嚴格來說應該叫歐式空間的標準內積,也就是很多人常說的點積 dot product 光看這一段還是不明白kernel...

機器學習裡的 kernel 是指什麼?

機器學習裡的 kernel 是指什麼?先給個定義 核函式k kernel function 就是指k x,y 其中x和y是n維的輸入值,f 是從n維到m維的對映 通常而言,m n 是x和y的內積 inner product 嚴格來說應該叫歐式空間的標準內積,也就是很多人常說的點積 dot produ...

機器學習 1 機器學習的入門

最近由於專案要求,從零開始自學機器學習,使用語言是python2.7。機器學習分類 監督學習,無監督學習,強化學習 監督學習 對事物未知表現的 包括分類問題和回歸問題。1 分類 指給乙個新的模式,根據訓練模型推斷它所對應的類別是多少,是一種定性輸出,也叫離散變數 2 回歸 指給乙個新的模式,根據訓練...