Coursera 機器學習 week6

2021-07-11 21:32:27 字數 2354 閱讀 9389

52nlp的筆記

如何調演算法,可能的措施包括

其中d為迭代次數

1)欠擬合underfitting = 高偏差 high bias jt

rain

和jcv

都比較大;

這時候可以 減小λ,增加特徵數,引入多項式特徵,但是擴充資料集不管用

2)過擬合 overfitting = 高方差 high variance jt

rain

會很小(擬合的非常好),但是jc

v 卻很大;

這時候可以增加λ、減小特徵數、擴充資料集

那麼,如何選擇正則化引數 λ ?

對於資料集,我們仍將它劃為3份:訓練集,驗證集,測試集。對於給定的正則化模型,例如上面的例子,我們按 λ 從小到大的順序依次取數,然後在訓練集上學習模型引數,在交叉驗證集上計算驗證集誤差,並選擇誤差最小的模型, 也就是選擇 λ,最後再在測試集上評估假設。

考察trainning set 大小 和error 大小的關係

1)欠擬合的情況下 兩個曲線很快變平 然後 非常靠近,而且最後收斂的位置error的值仍然很高

這種情況下,擴充訓練集合 沒用

2)過擬合的情況下 兩個曲線之間會有很大的gap 不會互相靠近;但是訓練集變大 gap會變小

這種情況下 ,擴充訓練集合 有用

正負樣本的比例 差太多 這種情況就叫做 skewed data

比如檢測癌症的演算法的資料集中,得癌症的(正樣本)只有0.5%

這時候accuracy並不能很好的檢測演算法的優劣(全部判定負都能獲得99.5%的準確率)

準確率precision= tr

uepo

siti

ve檢測

為正且檢

測正確n

o.of

pred

icte

dpos

itiv

e檢測為

正 = tr

uepo

siti

ve檢測

為正且檢

測正確t

ruep

osit

ive檢

測為正且

檢測正確

+fal

sepo

soti

ve檢測

為正但檢

測錯誤

召回率recall = tr

uepo

siti

ve檢測

為正樣本

且檢測正

確no.

ofac

tual

posi

tive

輸入資料

中的正樣

本 = tr

uepo

siti

ve檢測

為正且檢

測正確t

ruep

osit

ive檢

測為正且

檢測正確

+fal

sene

g檢測為

負但其實

為正在邏輯回歸問題中,如何根據precision和recall選擇我們的threshold

如果我們希望在非常確定的情況才認定樣本為正(非常確定才告訴你有癌症)

那麼選擇高precision,低recall

如果我們希望不要丟失太多癌症的案例(醫療科研人員)

那麼選擇高recall,低precision

不知道在precision和recall之間如何取捨,可以使用f1 score 綜合precision和recall來選擇threshold f1

scor

e=2p

rp+r

通常我們會同時測試多種演算法,選擇效能最好的

很多演算法的效能類似,通常只要給更多的資料,各種演算法的效果都會變好

所以俗語有云,得資料者得天下

機器學習入門 Coursera

1.解決方法 無論你是mac還是windows還是linux系統,系統中都會有乙個hosts檔案。這個檔案在各系統中的位址如下。1.mac系統 private etc hosts 2.linux系統 etc hosts 3.windows系統 c windows system32 drivers e...

機器學習Coursera學習總結

coursera上andrew ng的機器學習實在是太火了,最近有時間花費了20來天的時間 每天3小時左右 終於學習完了全部的課程,總結如下 1 適合入門,講的比較基礎,andrew講的很棒 2 裡面的習題相對比較容易,不過要認真揣摩每個英語單詞,不然容易犯錯 3 我是用matlab提交的程式設計作...

Coursera 機器學習筆記(六)

主要為第八周內容 聚類 clustering 降維 聚類是非監督學習中的重要的一類演算法。相比之前監督學習中的有標籤資料,非監督學習中的是無標籤資料。非監督學習的任務是對這些無標籤資料根據特徵找到內在結構。聚類就是通過演算法把資料分成不同的簇 點集 k均值演算法是其中一種重要的聚類演算法。k均值演算...