使用樣例來合成電腦程式的過程稱為學習方法,其中樣例由輸入或者輸出給出時,稱為監督學習。有關輸入和輸出的函式關係成為訓練資料。
輸入和輸出通常反映了把輸入對映到輸出的一種函式關係,當輸入到輸出存在內在函式時,該函式稱為目標函式。由學習演算法輸出對目標函式的估計稱為學習問題的解(對於分類問題,被稱為決策函式)。存在一系列候選函式可把輸入空間對映到輸出域,選擇一組或者一類候選函式,它們稱為假設集合。例如:決策樹是通過構造二叉樹而產生假設,樹的內部節點是簡單的決策函式,而葉節點是輸出值。因此把假設集合或者假設空間的選擇看作學習過程的關鍵因素,而從訓練資料中學習並從假設空間中選擇假設的演算法是第二個重要因素,它稱為學習演算法。
在輸出時,有二元輸出的問題成為二類問題,有多個類別的問題稱為多類問題,而實數值輸出的問題稱為回歸問題,在學習中,二類問題通常作為最簡單的情形率先被考慮。
泛化性準則對於學習演算法附加了另一種約束,這一點可以由一種極端情形下的機械式學習來充分證明,許多經典的機器學習演算法能夠表示任意函式,並且對於困難的訓練資料集會得到乙個類似機械式學習器的假設,所謂機械式學習器是指能夠正確分類訓練資料,但對所有未見資料會做出根本無關聯性額度**。例如:決策樹有可能過度增長直到針對每個訓練樣例只有乙個葉子節點,為了得到一致假設而使假設過度複雜稱為過擬合,控制此問題的一種方法是限制假設的規模,例如對於決策樹可進行修剪操作。這種採用的方法是為了獲得另一種平衡,它涉及泛化誤差率上的統計邊界,這些邊界通常依賴於分類器間隔這樣的變數,並引發最優化該變數的演算法,該途徑的缺點在於此演算法不會好於統計結果,因此能避免基於錯誤直覺的啟發式方法帶來的危險。
演算法設計基於統計結果這一點並非意味著忽略解決此類優化問題的計算複雜度,所感興趣的技術需要擁有可伸縮性,它應該能湊夠玩具世界的問題到包含上萬條記錄 的真實資料集的問題,只有通過對計算複雜度的原則性分析,才能避免滿足於那些只在小樣本上表現良好,卻對大訓練集完全失效的啟發式規則,計算複雜度理論研究了兩類問題,第一類問題是是否存在演算法能夠在輸入規模的多項式時間內執行的問題,第二類問題是如果存在這樣的演算法,任意解是否能在多項式時間內檢驗,也就是能不能在多項式時間內求解的問題,後一類問題即為np完全問題,通常認為這些問題不能有效求解。
貝葉斯分析的出發點是假設 集合上的先驗分布,它描述了學習器對於資料特定假設的似然性的先驗理念。只要能假定這樣的先驗分布,再加上資料如何被雜訊干擾的模型,原則上就有可能在給定訓練集合的情況下估計最可能的假設,甚至於可以在可能假設的集合上做加權平均。
如果不對所有可能的假設(即對輸入空間到輸出域的所有可能的目標函)的集合加以限制,學習是不能完成的,因為訓練資料本身無法對未見樣例進行分類,如果放寬限制,使得可以在看到資料後再自由的選擇假設集合,這同樣也會產生問題,因為可能會簡單的假定正確的假設具有任意先驗概率。在此意義上所有學習系統必須做出貝葉斯模型的先驗假定,它稱為學習偏置。
機器學習一 機器學習概要
回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...
機器學習一
機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...
機器學習(一)
1.1 引言 基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!基於經驗的三個預判例子 微濕路面 感到和風 看到晚霞,預判第二天天氣很好 色澤青綠 根蒂捲縮 敲聲濁響,預判西瓜是好瓜 下足功夫 弄清概念 做好作業,預判會取得好成績。我們能做出有效的判斷,是因為我們已經積累了許多經驗...