52nlp的筆記
如何調演算法,可能的措施包括
其中d為迭代次數
1)欠擬合underfitting = 高偏差 high bias jt
rain
和jcv
都比較大;
這時候可以 減小λ,增加特徵數,引入多項式特徵,但是擴充資料集不管用
2)過擬合 overfitting = 高方差 high variance jt
rain
會很小(擬合的非常好),但是jc
v 卻很大;
這時候可以增加λ、減小特徵數、擴充資料集
那麼,如何選擇正則化引數 λ ?
對於資料集,我們仍將它劃為3份:訓練集,驗證集,測試集。對於給定的正則化模型,例如上面的例子,我們按 λ 從小到大的順序依次取數,然後在訓練集上學習模型引數,在交叉驗證集上計算驗證集誤差,並選擇誤差最小的模型, 也就是選擇 λ,最後再在測試集上評估假設。
考察trainning set 大小 和error 大小的關係
1)欠擬合的情況下 兩個曲線很快變平 然後 非常靠近,而且最後收斂的位置error的值仍然很高
這種情況下,擴充訓練集合 沒用
2)過擬合的情況下 兩個曲線之間會有很大的gap 不會互相靠近;但是訓練集變大 gap會變小
這種情況下 ,擴充訓練集合 有用
正負樣本的比例 差太多 這種情況就叫做 skewed data
比如檢測癌症的演算法的資料集中,得癌症的(正樣本)只有0.5%
這時候accuracy並不能很好的檢測演算法的優劣(全部判定負都能獲得99.5%的準確率)
準確率precision= tr
uepo
siti
ve檢測
為正且檢
測正確n
o.of
pred
icte
dpos
itiv
e檢測為
正 = tr
uepo
siti
ve檢測
為正且檢
測正確t
ruep
osit
ive檢
測為正且
檢測正確
+fal
sepo
soti
ve檢測
為正但檢
測錯誤
召回率recall = tr
uepo
siti
ve檢測
為正樣本
且檢測正
確no.
ofac
tual
posi
tive
輸入資料
中的正樣
本 = tr
uepo
siti
ve檢測
為正且檢
測正確t
ruep
osit
ive檢
測為正且
檢測正確
+fal
sene
g檢測為
負但其實
為正在邏輯回歸問題中,如何根據precision和recall選擇我們的threshold
如果我們希望在非常確定的情況才認定樣本為正(非常確定才告訴你有癌症)
那麼選擇高precision,低recall
如果我們希望不要丟失太多癌症的案例(醫療科研人員)
那麼選擇高recall,低precision
不知道在precision和recall之間如何取捨,可以使用f1 score 綜合precision和recall來選擇threshold f1
scor
e=2p
rp+r
通常我們會同時測試多種演算法,選擇效能最好的
很多演算法的效能類似,通常只要給更多的資料,各種演算法的效果都會變好
所以俗語有云,得資料者得天下

機器學習入門 Coursera
1.解決方法 無論你是mac還是windows還是linux系統,系統中都會有乙個hosts檔案。這個檔案在各系統中的位址如下。1.mac系統 private etc hosts 2.linux系統 etc hosts 3.windows系統 c windows system32 drivers e...
機器學習Coursera學習總結
coursera上andrew ng的機器學習實在是太火了,最近有時間花費了20來天的時間 每天3小時左右 終於學習完了全部的課程,總結如下 1 適合入門,講的比較基礎,andrew講的很棒 2 裡面的習題相對比較容易,不過要認真揣摩每個英語單詞,不然容易犯錯 3 我是用matlab提交的程式設計作...
Coursera 機器學習筆記(六)
主要為第八周內容 聚類 clustering 降維 聚類是非監督學習中的重要的一類演算法。相比之前監督學習中的有標籤資料,非監督學習中的是無標籤資料。非監督學習的任務是對這些無標籤資料根據特徵找到內在結構。聚類就是通過演算法把資料分成不同的簇 點集 k均值演算法是其中一種重要的聚類演算法。k均值演算...