機器學習筆記一

2021-08-15 12:21:17 字數 2432 閱讀 6299

機器學習是研究如何通過計算的手段,通過經驗來改善系統自身的效能。在計算機系統中,「經驗」往往以「資料」的形式存在。

因此,機器學習研究的主要內容是在計算機上從資料產生「模型」的演算法,即「學習演算法」。將經驗資料提供給演算法,從而產生出「模型」,再次遇到新的資料時,「模型」能夠給我們提供相應的判斷結果。

學習/訓練:從資料中學的模型的過程。這個過程通過執行學習演算法來完成

**:建立「**」模型,需要訓練樣本的「結果」資訊

回歸:**連續值,如西瓜成熟度「0.95」「0.84

聚類:將西瓜分為若干組,每一組稱為「簇」

監督學習:訓練資料有標記,如分類回歸無監督學習:訓練資料沒有標記,如聚類

泛化:學得的模型適用於新樣本的能力

機器學習的目標是為了使學得的模型適用於新樣本,而不是在訓練樣本上做的好

歸納和演繹是科學推理的兩大手段

假設空間:學習過程可以看做是乙個在所有假設組成的空間中進行搜尋的過程,搜尋目標是找到所有與訓練集匹配的假設,假設的表示一旦確定,假設空間及其規模大小也將確定。如西瓜的假設空間由「(色澤=?)∧(形狀=?)∧(敲聲=?)」的可能取值所形成的假設組成

版本空間:可能有多個假設與訓練集一致。這個與訓練集一致的假設集合(假設空間的一部分),即是版本空間歸納偏好:機器學習演算法在學習的過程中對某種型別假設的偏好

過擬合:模型將訓練樣本學的太好,把訓練樣本自有的特點作為一般性質,導致泛化效能下降,它是機器學習的關鍵障礙,只能盡量緩解

欠擬合:模型對訓練樣本的一般性質沒有學好

評估方法

自助法:給定包含m個樣本的資料集d,對其進行取樣,得到資料集d′,每次隨機從d取出乙個樣本,將其拷貝放入d′,再將該樣本放回d,使其在下次仍有可能被採集到。樣本在m次後未被採集的概率是(1-1/m)^m,約等於0.368。即初始資料集d中有36.8%的資料未出現在d′中,將d′作為訓練集,d與d′的差集作為測試集。

總結:自助法在資料集較小,難以有效劃分訓練集/測試集時很有用。但是自助法改變了初始資料集的分布,引入了估計偏差,因此資料量足夠時,留出法交叉驗證法更常用。

調參:大多數學習演算法都有些引數需要設定,引數的配置會影響到模型的效能。引數一般都是實數範圍內取值,常見的做法是對每個引數取乙個範圍和變化步長。如在[0,0.2]範圍,以0.5為步長

測試集:研究對比不同演算法泛化效能時使用的測試資料

驗證集:訓練資料一般分為訓練集驗證集,模型評估與選擇過程中使用的資料集效能度量:對模型的泛化能力進行評估

比較檢驗統計假設檢驗為模型的效能提供了重要依據

假設檢驗:假設是對模型泛化錯誤率分布的某種判斷或猜想

偏差-方差分解:是解釋學習演算法泛化效能的一種重要工具

機器學習筆記(一) 了解機器學習

1 人工智慧是我們想要達成的目標,機器學習是想要達成目標的手段,深度學習就是機器學習的其中乙個方法。2 機器學習,根據你提供的資料尋找乙個function,如下圖,輸入一段語音知道是 how are you 輸入貓的知道是 貓 怎樣找出這個function呢?第一,要有一系列的function,即模...

機器學習筆記(一)

機器學習筆記 1,2課 一.線性回歸模型 1.數學模型 對於乙個具體的問題,x1,x2 是我們所選取的特徵,h x 是我們所建立的模型,其中有n 1個引數。我們希望所建立的數學模型可以很好的刻畫實際問題,而我們所擁有的就是訓練資料集。很自然的,我們希望數學模型可以較好的表述訓練資料集的情況。雖然對訓...

機器學習筆記(一)

統計學習三要素 模型 策略和演算法。模型分類有幾種,監督非監督,引數非引數等。監督學習又分為生成方法和判別方法。生成模型有 樸素貝葉斯和隱馬爾科夫。判別模型有 k近鄰,感知機,決策樹,邏輯回歸,em,svm,boost,crf.引數模型 引數個數固定,與訓練資料無關。非引數模型 引數個數依賴於訓練資...