在計算機系統中,「經驗」通常以「資料」形式存在,因此,機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」的演算法,即「學習演算法」。有了學習演算法,我們把經驗資料提供給它,它就能基於這些資料產生模型;在面對新的情況時,模型會給我們提供相應的判斷。(周志華)
假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能改善,則我們就說關於t和p,該程式對e進行了學習。(mitchell)
樣本:屬性、屬性值、樣本空間、特徵向量、維數
訓練、測試、分類、回歸、有監督學習、無監督學習。
評價指標:泛化能力。
歸納:從特殊到一般的泛化過程。即從具體的事實歸結出一般性規律。
演繹:從一般到特殊的特化過程。即從基礎原理推演出具體情況。
概念學習:通過描述概念的若干正例和反例訓練樣本,歸納出該概念的通用定義。其學習過程就是在假設空間中的搜尋過程。搜尋過程中可以不斷刪除與正例不一致的假設、或與反例一致的假設。最終將會獲得與訓練集一致的假設。
搜尋策略:自頂向下,自底向上,從一般都特殊,從特殊到一般。
note: 歸納學習的前提假設,對於任意假設,如果在足夠大的訓練集合中,能夠很好地擬合目標函式,則在例項空間中也能夠很好地擬合目標函式。
機器學習演算法在學習過程中隊某種型別假設的偏好,稱為歸納偏好。任何乙個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集熵等效的假設所迷惑,而無法產生確定的學習結果。
奧卡姆剃刀:若有多個假設與觀察一致,則選最簡單的那個。
nfl定理:無論學習演算法的聰明與笨拙,它們的期望效能是相同的。但是。nfl定理的乙個重要前提是,所有問題出現的機會相同。這也就說明了歸納偏好的重要性。學習演算法自身的歸納偏好與問題是否匹配,往往會起到決定性作用。
推理期:賦予機器邏輯推理能力。(五十年代到七十年代初)
知識期:機器必須擁有知識才能擁有智慧型。(七十年代中期)
學習期:讓機器去學習。從樣例中學習、符號主義學習、基於神經網路的連線主義學習。(八十年代)
統計學習:支援向量機、核方法。(九十年代中期)
深度學習:很多層的神經網路。(二十一世紀初)
1.1 答:如圖1.1。
1.2 答:
表1.1中,色澤屬性有2個屬性值,根蒂和敲聲屬性分別有3個屬性值,所以假設空間中一共有3*4*4+1=49種假設。在不考慮冗餘的情況下,最多包含k個合取式來表達假設空間,則一共有
如果考慮冗餘情況,這48中假設中(暫時不考慮空集),具體假設有2*3*3=18種,乙個泛化屬性假設有2*3+2*3+3*3=21種,兩個泛化屬性有2+3+3=8種,三個泛化屬性只有1種。
???1.3 答:如果雜訊資料裡包含相同屬性出現兩種不同情況的分類,第一種解決方案是它分為和相近屬性的在同一類。如果無法判斷相近屬性的分類,則可以同時刪除相同屬性不同分類的資料。
1.4 答:
已知,
則對所有可能的f按均勻分布對誤差求和,得到
要想證明nfl定理,只需要證明
第一章 緒論
1.16 void print descending int x,int y,int z 按從大到小順序輸出三個數 print descending 1.17 status fib int k,int m,int f 求k階斐波那契序列的第m項的值f gender char schoolname 校...
第一章 緒論
本 題目源於粵電集團科研專案 沙角a電廠優化排程輔助決策系統 沙角a電廠電網排程已由原來對互不聯絡的單機排程方式發展為對全廠整體總負荷的經濟排程方式,現有五颱發電機組 其中210mw機組三颱,300mw機組二台 的主要工作如下 1.實時資料採集及預處理 機組效能計算和能損分析建立在準確獲取現場資料的...
第一章 緒論
1.1 資料結構在程式設計中的作用 a 問題 資料模型 基本思路 想法 資料表示 資料處理 演算法 程式語言 程式設計環境 設計方法 程式 b 著名公式 資料結構 演算法 程式 1.2 本書討論的主要內容 a 問題一般分為 數值問題 非數值問題 a 數值問題抽象出的資料模型通常是數學方程 b 非數值...