機器學習基礎4 評估線性分類

2022-08-11 23:45:19 字數 1498 閱讀 5281

如線性回歸一樣,我們也分成了訓練集和測試集.

用訓練集進行分類器的學習,用測試集來評估分類錯誤.

分類錯誤:

測試集 -> 隱藏型別標籤 -> 放到分類器進行處理 -> 得出結果 -> 與定義好的型別標籤進行比較

錯誤率:

分類錯誤數/總句子數

正確率:

分類正確數/總句子數

那麼,什麼樣的正確率才是好的?

至少要比隨機猜測效果要好.

如果有k個分類,那麼正確率至少要大於等於1/k

同時要關注是否有意義:

2023年,全球有90%的郵件是垃圾郵件.而只要說所有郵件都是垃圾郵件,就有90%的正確率!

錯誤:

偏差:

通常來說,資料量越大,偏差就會越小.

但是,即使有無限多的資料,偏差也不會為0.

那麼,前文我們提到的good和not good呢?

即使再多的資料,也永遠分辨不出這句話:

the sushi was not good.

雙連詞模型:

在大資料量訓練的情況下,雙連詞模型擁有更小的偏差.

但是,乙個句子不可能只包含正面和負面的**,還應該包括對這個**的信心有多大.

「the sushi & everything else were awesome!」 p(y=+|x) = 0.99

「the sushi was good, the service was ok.」 p(y=+|x) = 0.55

即:概率是多大.

end

課程:機器學習基礎:案例研究(華盛頓大學)

week3 evaluating classification models

機器學習 分類模型的評估

estimator.score 混淆矩陣 在分類任務下,結果與正確標記之間存在四種不同的組合,構成混淆矩陣 適用於多分類 貓 混淆矩陣 狗 混淆矩陣 評估標準 準確率 精確率和召回率。精確率 結果為正例樣本中真實為正例的比例 查的準 召回率 真實為正例的樣本中 結果為正例的比例 查的對,對正樣本的區...

機器學習分類模型效果評估指標

機器學習分類模型效果評估指標 準確率 精確率 召回率 f1 score 1 準確率 精確率 召回率 f1 score 我們以分類演算法為例,假設班裡有50個同學,其中男生30個,女生20個,我們根據身高 體重 頭髮長度 聲音分貝等等特徵,想找到所有女生,比如已經有這樣乙個分類器了,得到結果如下 這裡...

機器學習之線性分類SVM

coding utf 8 created on fri nov 30 21 05 40 2018 author muli import matplotlib.pyplot as plt import numpy as np from sklearn import datasets,cross val...