機器學習導論

2021-10-04 13:54:47 字數 2205 閱讀 7593

策略結構風險

正則化項

交叉驗證

混淆矩陣

roc曲線

回歸問題與分類問題本質上都是要建立對映關係

0-1損失:

平方損失:

絕對損失:

對數損失:

模型f(x)關於訓練資料集的平均損失記為經驗損失(remp):

期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數定理,當n趨於無窮時,經驗風險remp趨於期望風險。

經驗風險最小化

經驗風險最小化策略認為,經驗風險最小的模型是最優模型:

例子:極大似然估計(模型為條件概率分布,損失函式為對數損失函式,經驗風險最小化等價於極大似然估計)

經驗風險最小化,在樣本量很小時會產生過擬合現象。結構風險最小化為了防止過擬合提出的策略,在經驗風險上加上表示模型複雜程度的正則化項。結構風險的定義為:

結構風險最小化

其中j為模型複雜程度,模型越複雜j越大;反之模型越簡單j越小。

一般形式如下:

第二項j為正則化項。正則化項可以取不同的形式,可以為模型引數向量的範數。例如在回歸問題中,損失函式是平方損失,正則化項可以為l2範數:

亦可為l1範數:

一般取少於1/3的資料作為驗證資料。

把資料樣本分為10份,輪流選其中9份作為訓練資料,將剩下乙份作為測試資料,把10次結果的均值作為對演算法精度的估計。

同理有k折驗證,取k-1份資料作為訓練資料,剩下乙份做驗證。亦稱作留一驗證。

準確率是針對**結果而言的,它表示的是**為正的樣本中有多少是真正的樣本。定義:

p = tp / (tp+fp)

召回率是針對我們原來的樣本而來的,它表示的是樣本中的正例有多少被**正確了。定義:

r = tp / (tp+fn)

檢索結果precision越高越好,同時recall也越高越好,但事實上兩者在某些情況下是有矛盾的。最常見的方法是f-measure,通過計算f值來評價乙個指標。例如f1值:

f1=2pr/(p+r)

定義:接收者操作特徵(receiveroperating characteristic),roc曲線上每個點反映著對同一訊號刺激的感受性。

橫軸:負正類率(false postive rate fpr)特異度,劃分例項中所有負例佔所有負例的比例;(1-specificity)

縱軸:真正類率(true postive rate tpr)靈敏度,sensitivity(正類覆蓋率)

tpr = tp / (tp+fp)

tpr = tp / p

fpr = fp / (tn + fn)

fpr = fp / n

定義:roc曲線下的面積大小。

計算方法:延roc曲線做積分。

機器學習導論二

監督學習 訓練資料集每個樣本均有個已知的輸出項。分類演算法 決策樹演算法 knn貝葉斯演算法 svm演算法 lr演算法 回歸 線性回歸 lasso回歸 ridge回歸 無監督學習 非監督學習 降維 pca lda 半監督學習 了解 一部分有類別標籤,一部分沒有類別標籤。強化學習 了解 遷移學習 了解...

機器學習導論(一)

改變了思維方式 資料重要性 資料資源 資料資產 增值 方 資料分析 統計學 抽樣 資料科學 大資料 計算智慧型 複雜演算法 決策方面 基於目標決策 基於資料決策 業務方面 基於業務的資料化 基於資料的業務化 產業競合 以戰略為中心 以資料為中心 資料量大 tb pb zb hdfs分布式檔案系統 資...

機器學習導論(三)

監督學習 監督 supervised 是指訓練資料集中的每個樣本均有乙個已知的輸出項 類標label 輸出變數為連續變數的 問題稱為回歸問題,回歸演算法有 簡單線性回歸,多元線性回歸,lasson回歸,ridge回歸,elastictnet 輸出變數為有限個離散變數的 問題稱為分類問題,分類演算法有...