什麼機器學習?第乙個機器學習的定義來自於 arthur samuel。他定義機器學習為,在進行特定程式設計的情況下,給予計算機學習能力的領域。samuel 的定義可以回溯到 50 年代,他編寫了乙個西洋棋程式。這程式神奇之處在於,程式設計者自己並不是個下棋高手。但因為他太菜了,於是就通過程式設計,讓西洋棋程式自己跟自己下了上萬盤棋。通過觀察哪種布局(棋盤位置)會贏,哪種布局會輸,久而久之,這西洋棋程式明白了什麼是好的布局,什麼樣是壞的布局。儘管編寫者自己是個菜鳥,但因為計算機有著足夠的耐心,去下上萬盤的棋,沒有人有這耐心去下這麼多盤棋。通過這些練習,計算機獲得無比豐富的經驗,於是漸漸成為了比samuel 更厲害的西洋棋手。上述是個有點不正式的定義,也比較古老。另乙個年代近一點的定義,由 tom mitchell 提出,來自卡內基梅隆大學,tom 定義的機器學習是,乙個好的學習問題定義如下,他說,乙個程式被認為能從經驗 e 中學習,解決任務 t,達到效能度量值p,當且僅當,有了經驗 e 後,經過 p 評判,程式在處理 t 時的效能有所提公升。我認為經驗e 就是程式上萬次的自我練習的經驗而任務 t 就是下棋。效能度量值 p 呢,就是它在與一些新的對手比賽時,贏得比賽的概率。
監督學習指的就是我們給學習演算法乙個資料集,這個資料集由「正確答案」組成。在房價的例子中,我們給了一系列房子的資料,我們給定資料集中每個樣本的正確**,即它們實際的售價然後運用學習演算法,算出更多的正確答案。比如你朋友那個新房子的**。用術語來講,這叫做回歸問題。我們試著推測出乙個連續值的結果,即房子的**。而在腫瘤的問題中,我們的目的是估算出腫瘤是惡性還是良心的概率,畢竟沒人會擔心良心腫瘤,這和房價問題不同因為我們將腫瘤分為了良性和惡性,所以這是個分類問題。
監督學習的基本思想是,我們資料集中的每個樣本都有相應的「正確答案」。再根據這些樣本作出**,就像房子和腫瘤的例子中做的那樣。
回歸問題,即通過回歸來推出乙個連續的輸出。
分類問題,其目標是推出一組離散的結果。
和監督學習不同,無監督學習中沒有任何的標籤或者是有相同的標籤或者就是沒標籤。我們只有乙個資料集,其他什麼也不知道,而我們要做的就是從這些資料中找到某種結構,將他們分為不同的聚集簇。無監督學習演算法可能會把這些資料分成兩個或多個不同的簇。所以叫做聚類演算法。乙個例子就是谷歌新聞,谷歌新聞每天都在收集各種新聞,它再將這些新聞分組,組成有關聯的新聞。所以谷歌新聞做的就是搜尋非常多的新聞事件,自動地把它們聚類到一起。所以,這些新聞事件全是同一主題的,所以顯示到一起。
\(m\) 代表訓練集(即監督學習中的資料集)中例項的數量
\(x\) 代表特徵/輸入變數
\(y\) 代表目標變數/輸出變數
\(\left( x,y \right)\) 代表訓練集中的例項
\((^},^})\) 代表第\(i\) 個觀察例項
\(h\) 代表學習演算法的解決方案或函式也稱為假設(hypothesis)
我們把訓練集裡房屋**餵給我們的學習演算法,學習演算法的工作了,然後輸出乙個函式,通常表示為小寫 ℎ表示。ℎ 代表 hypothesis(假設),ℎ表示乙個函式,輸入是房屋尺寸大小,就像你朋友想**的房屋,因此 ℎ 根據輸入的
《機器學習》 入門1 2章
開篇前話 這篇筆記適合機器學習初學者,我是加入了乙個dc演算法競賽的乙個小組,故開始入門機器學習,希望能夠以此正式進入機器學習領域。在網上我也找了很多入門機器學習的教程,但都不讓人滿意,是因為沒有乙個以競賽的形式來進行教授機器學習的課程,但我在dc學院上看到了這門課程,而課程的內容設計也是涵蓋了大部...
機器學習 聚類 12
聚類的概念 一種無監督的學習,事先不知道類別,自動將相似的物件歸到同乙個簇中。應用場景 文件分類器 客戶分類 保險欺詐檢測 乘車資料分析 其中p 1為曼哈頓距離 p 2為歐氏距離 使用vdm距離 其中 mu,a,i表示在第i個樣本簇中屬性u上取值為a的樣本數 mu,a表示屬性u上取值為a的樣本數 k...
12 機器學習之大資料學習
目錄 一 背景 二 隨機梯度下降法 三 mini batch 梯度下降演算法 四 隨機梯度下降演算法收斂 五 結束 首先,如果在演算法的訓練樣本量m不足的時候得到的模型具有高方差 high variance 那麼此時我們需要更多的訓練樣本。但是如果演算法具有高偏差,提高樣本數量並不會顯著改善模型的效...