機器學習是研究如何通過計算的手段,通過經驗來改善系統自身的效能。在計算機系統中,「經驗」往往以「資料」的形式存在。
因此,機器學習研究的主要內容是在計算機上從資料產生「模型」的演算法,即「學習演算法」。將經驗資料提供給演算法,從而產生出「模型」,再次遇到新的資料時,「模型」能夠給我們提供相應的判斷結果。
學習/訓練:從資料中學的模型的過程。這個過程通過執行學習演算法來完成
**:建立「**」模型,需要訓練樣本的「結果」資訊
回歸:**連續值,如西瓜成熟度「0.95」「0.84」
聚類:將西瓜分為若干組,每一組稱為「簇」
監督學習:訓練資料有標記,如分類和回歸無監督學習:訓練資料沒有標記,如聚類
泛化:學得的模型適用於新樣本的能力
機器學習的目標是為了使學得的模型適用於新樣本,而不是在訓練樣本上做的好
歸納和演繹是科學推理的兩大手段
假設空間:學習過程可以看做是乙個在所有假設組成的空間中進行搜尋的過程,搜尋目標是找到所有與訓練集匹配的假設,假設的表示一旦確定,假設空間及其規模大小也將確定。如西瓜的假設空間由「(色澤=?)∧(形狀=?)∧(敲聲=?)」的可能取值所形成的假設組成
版本空間:可能有多個假設與訓練集一致。這個與訓練集一致的假設集合(假設空間的一部分),即是版本空間歸納偏好:機器學習演算法在學習的過程中對某種型別假設的偏好
過擬合:模型將訓練樣本學的太好,把訓練樣本自有的特點作為一般性質,導致泛化效能下降,它是機器學習的關鍵障礙,只能盡量緩解
欠擬合:模型對訓練樣本的一般性質沒有學好
評估方法:
自助法:給定包含m個樣本的資料集d,對其進行取樣,得到資料集d′,每次隨機從d取出乙個樣本,將其拷貝放入d′,再將該樣本放回d,使其在下次仍有可能被採集到。樣本在m次後未被採集的概率是(1-1/m)^m,約等於0.368。即初始資料集d中有36.8%的資料未出現在d′中,將d′作為訓練集,d與d′的差集作為測試集。
總結:自助法在資料集較小,難以有效劃分訓練集/測試集時很有用。但是自助法改變了初始資料集的分布,引入了估計偏差,因此資料量足夠時,留出法和交叉驗證法更常用。
調參:大多數學習演算法都有些引數需要設定,引數的配置會影響到模型的效能。引數一般都是實數範圍內取值,常見的做法是對每個引數取乙個範圍和變化步長。如在[0,0.2]範圍,以0.5為步長
測試集:研究對比不同演算法泛化效能時使用的測試資料
驗證集:訓練資料一般分為訓練集和驗證集,模型評估與選擇過程中使用的資料集效能度量:對模型的泛化能力進行評估
比較檢驗:統計假設檢驗為模型的效能提供了重要依據
假設檢驗:假設是對模型泛化錯誤率分布的某種判斷或猜想
偏差-方差分解:是解釋學習演算法泛化效能的一種重要工具
機器學習筆記(一) 了解機器學習
1 人工智慧是我們想要達成的目標,機器學習是想要達成目標的手段,深度學習就是機器學習的其中乙個方法。2 機器學習,根據你提供的資料尋找乙個function,如下圖,輸入一段語音知道是 how are you 輸入貓的知道是 貓 怎樣找出這個function呢?第一,要有一系列的function,即模...
機器學習筆記(一)
機器學習筆記 1,2課 一.線性回歸模型 1.數學模型 對於乙個具體的問題,x1,x2 是我們所選取的特徵,h x 是我們所建立的模型,其中有n 1個引數。我們希望所建立的數學模型可以很好的刻畫實際問題,而我們所擁有的就是訓練資料集。很自然的,我們希望數學模型可以較好的表述訓練資料集的情況。雖然對訓...
機器學習筆記(一)
統計學習三要素 模型 策略和演算法。模型分類有幾種,監督非監督,引數非引數等。監督學習又分為生成方法和判別方法。生成模型有 樸素貝葉斯和隱馬爾科夫。判別模型有 k近鄰,感知機,決策樹,邏輯回歸,em,svm,boost,crf.引數模型 引數個數固定,與訓練資料無關。非引數模型 引數個數依賴於訓練資...