今天的文章是機器學習的導論,這會像python基礎教程和爬蟲教程一樣是乙個**系列,但是在機器學習領域自己還沒入門,只是通過一次比賽接觸到機器學習使用了幾個模型罷了,這個系列單純把自己學習筆記和學習體會分享給大家,更新可能會比較慢,期待大家一起進步。
首先,必須澄清乙個關於機器學習的最大錯誤觀念:
機器學習≠演算法
機器學習是與演算法無關的,機器學習是解決問題的綜合方法,也可以說機器學習=尋找一種函式。這個函式可以:
語音識別:輸入一段語音頻號輸出文字
f( )="how are you "
影象識別:輸入,輸出的屬性
f( )="cat"
影象識別:輸入,輸出的屬性
f( )="5*5"
機器學習是教會計算機如何從資料中學習模式的做法,通常用於做出決策或**。對於真正的機器學習,計算機必須能夠學習未明確程式設計識別的模式。
例如:好奇的孩子
乙個小孩正在家裡玩......他看到一支蠟燭!他小心翼翼地蹣跚而行。
1.出於好奇,他把手伸到蠟燭火焰上。
2.「哎喲!」他大聲喊道,他把手拉回來。
3.「嗯......紅色和明亮的東西真疼!」
兩天後,他正在廚房裡玩......他看到了乙個爐灶!他再一次小心翼翼地蹣跚而行。
1.他又好奇了,他正想著伸出手來。
2.突然,他注意到它是紅色和明亮的!
3.「啊......」他對自己說,「不是今天!」
4.他記得紅色和明亮意味著痛苦,他忽略了爐頂。
要清楚,它只是機器學習,因為孩子從蠟燭中學習模式,他了解到「紅色和明亮的模式意味著痛苦」另一方面,如果他僅僅因為他的父母警告他而忽略了爐頂,那就是「明確的程式設計」而不是機器學習。
監督學習
監督學習包括「標記」資料的任務(即有乙個目標變數)簡單的來說就是在有資料標註的情況下進行學習。在實踐中,它通常用作**建模的高階形式,每個觀察必須用「正確答案」標記,只有這樣你才能建立乙個**模型,因為你必須在訓練時告訴演算法什麼是「正確的」(因此,「監督」它)。
這裡還有兩個名詞需要大家理解,第乙個是回歸:回歸問題,尋找函式f的輸出為乙個數值。一般用於**。該問題一般是通過大量的訓練資料,找到相對正確的函式。第二個是分類:是對分類(又稱「類")目標變數進行建模的任務,分類問題可以分為二分類和多分類。
無監督學習
無監督學習包括「未標記」資料的任務(即沒有目標變數)簡單來說無監督學習就是在沒有具體資料標註的情況下進行學習。在實踐中,它通常用作自動資料分析或自動訊號提取的一種形式,例如:機器閱讀:機器在大量的文件中學會詞語的意思。未標記的資料沒有預先確定的「正確答案」。允許演算法直接從資料中學習模式(沒有「監督」)。聚類是最常見的無監督學習任務,它用於查詢 資料中的組。
無論在機器學習還是深度學習建模當中都可能會遇到兩種最常見結果,一種叫過擬合(over-fitting )另外一種叫欠擬合(under-fitting)。
所謂過擬合(over-fitting)其實就是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,導致在驗證資料集以及測試資料集中表現不佳。
打個比喻就是當我需要建立好乙個模型之後,比如是識別乙隻狗狗的模型,我需要對這個模型進行訓練。恰好,我訓練樣本中的所有訓練都是二哈,那麼經過多次迭代訓練之後,模型訓練好了,並且在訓練集中表現得很好。基本上二哈身上的所有特點都涵括進去,那麼問題來了!假如我的測試樣本是乙隻金毛呢?將乙隻金毛的測試樣本放進這個識別狗狗的模型中,很有可能模型最後輸出的結果就是金毛不是一條狗(因為這個模型基本上是按照二哈的特徵去打造的)。所以這樣就造成了模型過擬合,雖然在訓練集上表現得很好,但是在測試集中表現得恰好相反,在效能的角度上講就是協方差過大(variance is large),同樣在測試集上的損失函式(cost function)會表現得很大。
欠擬合呢(under-fitting)?相對過擬合欠擬合還是比較容易理解。還是拿剛才的模型來說,可能二哈被提取的特徵比較少,導致訓練出來的模型不能很好地匹配,表現得很差,甚至二哈都無法識別
過擬合產生的原因
雜訊:永遠沒有完美的資料,資料裡的雜訊會影響模型的學習。
假規律: 樣本量較少時,學習器卻很複雜時,學習器會過度解讀學到很多假的但是在這少數幾個樣本擁有的規律。
寫在最後:
【推薦閱讀】
致青春--python實現俄羅斯方塊
【python爬蟲】urllib的使用(2)
【leetcode】貪心演算法--劃分字母區間(763)
機器學習實戰--住房月租金**(3)
機器學習導論(一)
改變了思維方式 資料重要性 資料資源 資料資產 增值 方 資料分析 統計學 抽樣 資料科學 大資料 計算智慧型 複雜演算法 決策方面 基於目標決策 基於資料決策 業務方面 基於業務的資料化 基於資料的業務化 產業競合 以戰略為中心 以資料為中心 資料量大 tb pb zb hdfs分布式檔案系統 資...
學習筆記 機器學習(一) 導論
這也是我自己非常關心的乙個問題吧,從我第一次聽到這個詞語,就對機器學習是什麼一直模糊不清!這個也可以參考 這裡我首先明白了上面的三種學習方式是根據學習任務的不同,機器學習可以細化為這四種!而這裡的學習任務的不同具體指的就是資料的不同 1 如果所給定訓練的資料都是標好 好 或者 壞 等這樣的標籤時 監...
機器學習導論
策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...