如線性回歸一樣,我們也分成了訓練集和測試集.
用訓練集進行分類器的學習,用測試集來評估分類錯誤.
分類錯誤:
測試集 -> 隱藏型別標籤 -> 放到分類器進行處理 -> 得出結果 -> 與定義好的型別標籤進行比較
錯誤率:
分類錯誤數/總句子數
正確率:
分類正確數/總句子數
那麼,什麼樣的正確率才是好的?
至少要比隨機猜測效果要好.
如果有k個分類,那麼正確率至少要大於等於1/k
同時要關注是否有意義:
2023年,全球有90%的郵件是垃圾郵件.而只要說所有郵件都是垃圾郵件,就有90%的正確率!
錯誤:
偏差:
通常來說,資料量越大,偏差就會越小.
但是,即使有無限多的資料,偏差也不會為0.
那麼,前文我們提到的good和not good呢?
即使再多的資料,也永遠分辨不出這句話:
the sushi was not good.
雙連詞模型:
在大資料量訓練的情況下,雙連詞模型擁有更小的偏差.
但是,乙個句子不可能只包含正面和負面的**,還應該包括對這個**的信心有多大.
「the sushi & everything else were awesome!」 p(y=+|x) = 0.99
「the sushi was good, the service was ok.」 p(y=+|x) = 0.55
即:概率是多大.
end
課程:機器學習基礎:案例研究(華盛頓大學)week3 evaluating classification models
機器學習 分類模型的評估
estimator.score 混淆矩陣 在分類任務下,結果與正確標記之間存在四種不同的組合,構成混淆矩陣 適用於多分類 貓 混淆矩陣 狗 混淆矩陣 評估標準 準確率 精確率和召回率。精確率 結果為正例樣本中真實為正例的比例 查的準 召回率 真實為正例的樣本中 結果為正例的比例 查的對,對正樣本的區...
機器學習分類模型效果評估指標
機器學習分類模型效果評估指標 準確率 精確率 召回率 f1 score 1 準確率 精確率 召回率 f1 score 我們以分類演算法為例,假設班裡有50個同學,其中男生30個,女生20個,我們根據身高 體重 頭髮長度 聲音分貝等等特徵,想找到所有女生,比如已經有這樣乙個分類器了,得到結果如下 這裡...
機器學習之線性分類SVM
coding utf 8 created on fri nov 30 21 05 40 2018 author muli import matplotlib.pyplot as plt import numpy as np from sklearn import datasets,cross val...