機器學習方法在大型資料庫中的應用成為資料探勘data mining。
模式識別應用:光學字元識別orc,人臉識別,醫學診斷,語音識別,生物測定學,從資料中學習規則(知識抽取),離群點檢測。
回歸:給定一定的屬性資訊,輸出乙個結果,並從資料中獲取乙個較符合的曲線。
過擬合是一定程度上過度擬合實驗數值,誤差很小,但可能造成實際資料與該規律想差很大。
監督學習,我們目標是學習從輸入到輸出的對映關係,其中輸出的正確值已經有工作人員提供。
非監督學習中沒有這樣提供這樣正確值的工作人員,只有輸入資料,我們的目標是發現輸入資料中的規律。
監督學習
雜訊雜訊是資料中有害的異常。當雜訊存在時,在正例和負例之間不存在簡單的邊界。需要有更大能力的假設類的複雜假設。雜訊有以下幾種解釋:
1.記錄的輸入屬性可能不準確,導致資料點在輸入空間中移動。
2.標記的資料點可能有錯誤,可能將正例標記為負的,或相反。這種情況有時稱為指導雜訊。
可能存在沒有考慮到的附加屬性,而他們會影響例項的標記。這些附加屬性可能是隱藏的或潛在的。因此是不可能觀察的。這些被忽略的屬性所造成的影響作為隨機成分建模。
如果輸入資料中確實存在錯誤標記的例項或雜訊,並且實際的類確實就是矩形這樣的簡單模型,那麼由於矩形具有較小的方差,並且較少地被單個例項所影響,所以儘管簡單矩形可能導致訓練集上較大的誤差,但是它也是比曲線圖形更好的分類器。給定類似的經驗誤差,我們說簡單模型比複雜模型泛化能力更好。該原則就是著名的奧克姆剃刀,它說較簡單的解釋看上去更可信。
泛化問題,即我們的假設對不在訓練集中的未來例項分類準確如何。給定乙個接近於正例和負例邊界的某個未來例項,不同的候選假設可能做出不同的**。
模型選擇與泛化
資料可能會擬合可能會發生欠擬合和過擬合。
我們可以引用三元權衡triple trade-off,由樣本資料訓練的學習演算法中,存在以下3種因素之間的平衡:
1. 擬合資料假設的複雜度,即假設能力。
2. 訓練資料的總量。
3. 在新的樣本上的泛化誤差。
如果我們訪問訓練集以外的資料,則我們就能度量假設的泛化能力,即他的歸納偏倚的質量。
所以把訓練集分為兩部分:一部分是訓練集train(擬合乙個假設)、剩下的作為驗證集validation set,它用來檢驗假設的泛化能力。如果需要報告最佳模型的期望誤差,我們需要第三個資料集--檢驗集test set(發布集),包含訓練或驗證階段未使用過的資料。
機器學習第一章
q 什麼是機器學習 機器學習不同於以往的計算機程式設計,致力於研究如何通過計算機手段,利用以往的經驗來改善系統自身的效能。一般的程式設計都是明確的告訴電腦該做什麼。機器學習希望提供資料給學習演算法,讓它自己學習,找到其種的規律。在面對新情況的時候就能應用已產生的模型,提供相應的判斷。機器學習的本質任...
機器學習第一章
今天進行了機器學習第一章的學習,我覺得首先你可以認清這些概念 1 模型 策略 演算法 2 分類與回歸的概念 3 監督 無監督 半監督問題 2 過擬合 欠擬合 下面是拓展的一些概念 海森矩陣 黑塞矩陣 hessian matrix 又譯作海森矩陣 海瑟矩陣 海塞矩陣等,是乙個多元函式的二階偏導數構成的...
《機器學習》 第一章
圖書館借了本機器學習,作者是 tom m.mitchell,亞馬遜這本書排名挺靠前的。好了,直接開篇。接下來大篇幅講述了,如何挑選訓練經驗,選擇目標函式,目標函式的表示,選擇函式逼近演算法。整個設計下來,分為了四大模組 執行系統 鑑定器 泛化器 實驗生成器。看過這本書的都會被第一章的跳棋學習深深吸引...