西瓜書總結與回顧(一) 體系與方法

2021-08-08 08:52:03 字數 1514 閱讀 8701

新手,求指導!

西瓜書總結與回顧(一)------體系與方法。

總結得來,機器學習是通過對資料的學習,對未來作出**和判斷的過程。其中對於資料的定義則更為廣泛包括文字,語音,影象等等,並不侷限於數字。

基本概念:輸入,輸出和特徵。通常我們對演算法「喂」一些資料,這就是輸入。通過演算法的擬合,會把輸入轉化為輸出,一般的輸出有模型,引數,可能還有**結果和**表及等等。還有乙個重要的概念是特徵,特徵是指資料樣本的維度,或者屬性,比如乙個人作為樣本,特徵就包括身高,體重,年齡,性別等等,很多帶有這樣特徵的樣本組合在一起就是輸入。

乙個學習的過程一般為,針對資料特徵以及所有解決的問題選擇適當的演算法和適當的引數得出模型結果,但是我們這個並不知道模型的好壞,所以需要對模型做出評價。這時候就需要做交叉驗證,通過把資料劃分為訓練集和驗證集,一驗證集的結果來衡量模型的優劣,以至於反推回去重新選擇演算法,或者調整引數。最後用最合適的演算法和最合適的引數作為最後的輸出結果。在整個過程中就會涉及交叉驗證的方法,衡量模型優劣的指標,以及如何產生乙個在驗證集上表現好的模型。

1.     交叉驗證的方法:留出法,把已知資料按照比例分為訓練集和驗證集;交叉驗證,把資料集分為k分,每次用k-1作為訓練集,剩乙份作為驗證,重複k此,最後用k次的平均;自助法,從資料集中抽取一部分資料,作為驗證集,訓練集還是整個資料集,重複多次。

正則,交叉驗證,過擬合??

在之前看到的書中,有提到交叉驗證和正則都是在做模型選擇。一開始很不懂,正則和交叉驗證什麼關係,和正則有一樣效果的應該是特徵選擇啊!

現在分析一下:說交叉驗證和正則都是做模型選擇沒錯,但是對模型選擇的方式不一樣。交叉驗證在上面說了,他為的是能夠有驗證集,用驗證集的結果來反推建造模型時的演算法合不合適,引數是不是需要調整,這樣來說,它也做了模型選擇,演算法不同,引數不同模型自然不一樣。而正則的模型選擇則是作用在特徵選擇這個過程,它和交叉驗證並不是並列關係,通過正則約束,能夠減少模型的複雜度,這也可以稱為模型選擇。在l1的正則中,能夠產生係數的引數估計為0,使得相應的特徵不出現在模型中,達到乙個特徵選擇的目的,因為在實際中很多特徵本來就和結果沒關係,通過特徵選擇可以剔除冗餘特徵。而交叉驗證並不是特徵選擇,只是根據他的結果矯正演算法引數。交叉驗證產生驗證集,訓練集,訓練集在去訓練模型,為了使得模型效果好,在這個過程我們加入正則。產生較好的結果,在用於驗證集,驗證集表現不理想,則反回最初,矯正演算法和演算法引數。這裡需要知道演算法引數和產生的模型引數並不一樣。

由於我們的目的通常是從已知資料得到規律用於未知,所以最好的模型應該是未知集上表現最好的,稱之為泛化能力。這是乙個非常重要的概念。模型的好壞主要是欠擬合和過擬合,最佳的模型應當平衡這兩者達到最好的泛化效果。由於現在演算法的發展,欠擬合很好解決,通常只有簡單的線性回歸會產生欠擬合,(而實際中,嶺回歸和lasso都是線性回歸的防止過擬合操作)。更多時候,我們想的是防止過擬合,其中常用的有正則化和特徵選擇,在李航老師書中,將交叉驗證也作為一種預防過擬合的方式,並不知是為什麼。特徵選擇包括一種包裹式,過濾式選擇的選擇,和嵌入式選擇。對應於逐步回歸中的向後,向前過程。而嵌入式則是通過增加正則化項來平衡經驗風險和模型複雜度。正則化項能夠壓縮引數值,在l1正則化還能夠將某些壓縮到0,從而來達到選擇特徵的目的。

西瓜書第一章的幾條總結

1 奧卡姆剃刀 occam s razor 是一種常用的 自然科學研究中最基本的原則。即 若有多個假設與觀察一致,則選擇最簡單的那個 2 天下沒有免費的午餐 定理 no free lunch theorem,簡稱 nfl 證明了所有演算法的期望效能都相同。但我們要注意到nfl定理有乙個重要的前提 所...

西瓜書筆記 模型評估與選擇

錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器訓練之後,在新樣本上的誤差 過擬合 學習器把訓練樣本學習的 過好 導致泛化能力下降。欠擬合 學習器尚未學好訓練樣本的一般性質。以下四種方法可以有效地從乙個資料集中分出訓練集 s 和...

西瓜書筆記 貝葉斯分類器 一

貝葉斯判定準則 對每個樣本x,選擇能使後驗概率p c x 最大的類別標記 然而,在現實任務中這通常難以直接獲得,所以機器學習所要實現的是基於有限訓練樣本集盡可能準確地估計出後驗概率p c x 策略通常有如下兩種 給定x,可通過直接建模p c x 來 c,這樣得到的是判別式模型。如決策樹 bp神經網路...