機器學習是一類演算法的總稱,這些演算法企圖從大量歷史資料中挖掘出其中隱含的規律,並用於**或者分類,更具體的說,機器學習可以看作是尋找乙個函式,輸入是樣本資料,輸出是期望的結果,只是這個函式過於複雜,以至於不太方便形式化表達。需要注意的是,機器學習的目標是使學到的函式很好地適用於「新樣本」,而不僅僅是在訓練樣本上表現很好。學到的函式適用於新樣本的能力,稱為泛化能力。
選擇乙個合適的模型,這通常需要依據實際問題而定,針對不同的問題和任務需要選取恰當的模型,模型就是一組函式的集合。
判斷乙個函式的好壞,這需要確定乙個衡量標準,也就是我們通常說的損失函式,損失函式的確定也需要依據具體問題而定,如回歸問題一般採用歐式距離,分類問題一般採用交叉熵代價函式。
找出「最好」的函式,如何從眾多函式中最快的找出「最好」的那乙個,這一步是最大的難點,做到又快又準往往不是一件容易的事情。常用的方法有梯度下降演算法,最小二乘法等和其他一些技巧。
學習得到「最好」的函式後,需要在新樣本上進行測試,只有在新樣本上表現很好,才算是乙個「好」的函式。
按任務型別分,機器學習模型可以分為回歸模型、分類模型和結構化學習模型。回歸模型又叫**模型,輸出是乙個不能列舉的數值;分類模型又分為二分類模型和多分類模型,常見的二分類問題有垃圾郵件過濾,常見的多分類問題有文件自動歸類;結構化學習模型的輸出不再是乙個固定長度的值,如語義分析,輸出是的文字描述。
按照學習理論分,機器學習模型可以分為有監督學習,半監督學習,無監督學習,遷移學習和強化學習。當訓練樣本帶有標籤時是有監督學習;訓練樣本部分有標籤,部分無標籤時是半監督學習;訓練樣本全部無標籤時是無監督學習。遷移學習就是就是把已經訓練好的模型引數遷移到新的模型上以幫助新模型訓練。強化學習是乙個學習最優策略,可以讓本體在特定環境中,根據當前狀態,做出行動,從而獲得最大回報。強化學習和有監督學習最大的不同是,每次的決定沒有對與錯,而是希望獲得最多的累計獎勵。
決策樹
樸素貝葉斯分類
最小二乘法
邏輯回歸
支援向量機
整合方法
聚類方法
主成分分析
奇異值分解
獨立成分分析
簡介
深度學習是機器學習的一種,而機器學習是實現人工智慧的必經路徑。深度學習的概念源於人工神經網路的研究,含多個隱藏層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現資料的分布式特徵表示。研究深度學習的動機在於建立模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋資料,例如影象,聲音和文字等。
深度學習是一類模式分析方法的統稱,就具體研究內容而言,主要涉及三類方法:
(1)基於卷積運算的神經網路系統,即卷積神經網路(cnn)。
(2)基於多層神經元的自編碼神經網路,包括自編碼以及近年來受到廣泛關注的稀疏編碼兩類。
(3)以多層自編碼神經網路的方式進行預訓練,進而結合鑑別資訊進一步優化神經網路權值的深度置信網路。
機器學習 隨機森林原理及應用
隨機森林是一種整合學習的方法,它的最終結果取決於多課決策樹的投票結果。對於分類問題,直觀來講就是對乙個資料集合構造很多棵決策樹,然後對於新樣本每一棵決策樹都會輸出乙個結果,最後選擇多棵決策樹中輸出類別最多的結果作為最終的輸出結果。這也就是隨機森林中森林的含義。這也是隨機森林最重要的一點,隨機森林的隨...
機器學習之 機器學習應用建議
機器學習的應用建議 好久沒有更新機器學習的學習筆記了,上一次還是更新的神經網路的部分。這一次我們來聊一聊,機器學習的應用建議。決定下一步做什麼 假設我們需要用乙個線性回歸模型 linear regression 來 房價,當我們運用訓練好了的模型來 未知資料的時候,發現有較大的誤差,我們下一步可以做...
機器學習入門 應用機器學習的建議
機器入門系列文章中,我已經根據課程,介紹了許多演算法,比如線性回歸 logistic回歸,以及神經網路,等等。而針對具體的問題,我們採取了某種演算法,實現後,發現效果不好,需要改進。有些時候需要增加資料量,有些時候則不需要 我們需要評估乙個模型的好壞,從而比較選出更優者 或者根據模型出現的問題,提出...