機器學習包括有監督學習(supervised learning),無監督學習(unsupervised learning),和半監督學習(semi-supervised learning).
在有監督學習中,資料是有標註的,以(x, t)的形式出現,其中x是輸入資料,t是標註.正確的t標註是ground truth, 錯誤的標記則不是。(也有人將所有標註資料都叫做ground truth)
由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料,y為模型**的值。標註會和模型**的結果作比較。在損耗函式(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss / error)。 比如在最小方差中:
1 2m
∑i=1
m(y−
t)
2\frac \sum _ ^ ( y - t ) ^
2m1i=
1∑m
(y−t
)2因此如果標註資料不是ground truth,那麼loss的計算將會產生誤差,從而影響到模型質量。
比如輸入三維,判斷是否**:
1.錯誤的資料
標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。
標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。
這裡標註資料1是ground truth, 而標註資料2不是。
**資料1 y = -1
**資料2 y = -1
loss =1
2×2(
(−1−
1)2+
(−1−
1)2)
=2
\text = \frac \left( ( - 1 - 1 ) ^ + ( - 1 - 1 ) ^ \right) = 2
loss =2
×21
((−1
−1)2
+(−1
−1)2
)=21.正確的資料
標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。
標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改為ground truth)
這裡標註資料1和2都是ground truth。
**資料1 y = -1
**資料2 y = -1
loss =1
2×2(
(−1−
1)2+
(−1+
1)2)
=1
\text = \frac \left( ( - 1 - 1 ) ^ + ( - 1 + 1 ) ^ \right) = 1
loss =2
×21
((−1
−1)2
+(−1
+1)2
)=1由於使用錯誤的資料,對模型的估計比實際要糟糕。另外,標記資料還被用來更新權重,錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。
機器學習裡的kernel是指什麼?
先給個定義 核函式k kernel function 就是指k x,y 其中x和y是n維的輸入值,f 是從n維到m維的對映 通常而言,m n 是x和y的內積 inner product 嚴格來說應該叫歐式空間的標準內積,也就是很多人常說的點積 dot product 光看這一段還是不明白kernel...
機器學習裡的 kernel 是指什麼?
機器學習裡的 kernel 是指什麼?先給個定義 核函式k kernel function 就是指k x,y 其中x和y是n維的輸入值,f 是從n維到m維的對映 通常而言,m n 是x和y的內積 inner product 嚴格來說應該叫歐式空間的標準內積,也就是很多人常說的點積 dot produ...
機器學習 1 機器學習的入門
最近由於專案要求,從零開始自學機器學習,使用語言是python2.7。機器學習分類 監督學習,無監督學習,強化學習 監督學習 對事物未知表現的 包括分類問題和回歸問題。1 分類 指給乙個新的模式,根據訓練模型推斷它所對應的類別是多少,是一種定性輸出,也叫離散變數 2 回歸 指給乙個新的模式,根據訓練...