《machine learning - a probabilistic perspective》
第一章:導論
1.1 什麼是機器學習,為什麼需要機器學習。
大資料時代,要求機器能自動分析資料,能從已知的資料中學習一些隱藏的模式,來**未來的資料,或者執行一些決策。
機器學習大體分為兩類:**或者有監督學習:這個方式需要有訓練資料庫,然後給定輸入特徵、屬性或者協變數,給定輸出的資訊。如果輸出的是類別資訊,則稱這類問題叫分類問題,或者模式識別問題。如果輸出的是連續值,則稱這類問題為回歸問題(regression)。
描述(descriptive)或者無監督學習:這類問題只有輸入資訊,而沒有關於輸入的任何結構、模式等資訊。給定輸入,需要挖掘其內在的一些模式,因此有時候叫知識挖掘(knowledge discovery)。
還有第三類學習方法,叫增強學習(reinforcement learning),這類方法是用較少,
1.2 有監督學習:
分類問題:給定帶有標註的輸入資料,訓練學習乙個**函式。然後,利用這個**函式多新的樣本進行**或者標註,這個過程也就推廣(generalization)。
利用概率模型,我們可以將這類問題描述為概率形成:
利用map estimate原則,即最大化後驗概率來決策。
**問題:給定的輸入,輸出可能是連續值。比如**年齡、**溫度等值。
1.3 無監督學習
無監督學習意在發掘資料的「有意思」的結構資訊,在這類方法中,從概率的角度講,我們要構建帶引數的
概率密度估計。
無監督學習主要有以下幾類:聚類演算法、降維演算法(高維資料顯示)、圖的結構挖掘、矩陣填充(
matrix completion)。
有監督學習通常的概率描述:
無監督學習通常的概率描述:
1.4 機器學習中的重要概念
1,有引數模型和無引數模型;
2,維度災難;
3,線性回歸;
logistic回歸;
4,過擬合;
5,模型選擇;
6,沒有免費的午餐原理。
【沒有免費的午餐原理】:我們在乙個資料域上所做的假設,不一定在其他的資料域也同樣工作的很好;實際上往往在其他域內效能很差。這個原理產生的結果是,我們開發出很多不同的模型,來覆蓋現實世界中的不同的資料。
【本文完】
機器學習導論筆記 緒論
監督學習 給定輸入x和輸出y,任務是學習從輸入到輸出的對映。方法是,先假定某個依賴於一組引數的函式,優化引數,使得逼近誤差最小。型別包括回歸和分類。非監督學習 只有輸入資料,我們的目標是發現輸入資料中的規律,輸入空間存在著某種結構使得特定的模式比其他模式更易出現,我們對其進行密度估計。聚類是密度估計...
機器學習筆記 基礎導論
三 機器學習有哪些分類?四 機器學習的前沿進展?經過兩年專業課與基礎課的學習,我們已經有能力去接觸機器學習這門課程。機器學習要求首先是數學功底深厚,微積分 線性代數 概率論將會發揮重要的作用也會是學習上最大的門檻,另外需要掌握基本的程式設計技巧並且熟練使用python語言。我對自己也沒有十足的信心,...
學習筆記 機器學習(一) 導論
這也是我自己非常關心的乙個問題吧,從我第一次聽到這個詞語,就對機器學習是什麼一直模糊不清!這個也可以參考 這裡我首先明白了上面的三種學習方式是根據學習任務的不同,機器學習可以細化為這四種!而這裡的學習任務的不同具體指的就是資料的不同 1 如果所給定訓練的資料都是標好 好 或者 壞 等這樣的標籤時 監...