2個概念
在具體的建模分析中
標籤指我們重點觀測和**的變數;
特徵是指影響標籤的一些因素.
3種機器學習方式
監督學習—看樣本資料是否同時具有特徵和標籤;
無監督學習—樣本資料中只有特徵,沒有標籤,演算法自己去挖掘特徵之間的規律。
強化學習—沒有特徵也沒有標籤,只給定行為規則,通過學習到對環境的反應。比如機械人學習在不同位置投籃的力度和角度。
那麼本文我們主要來看一下機器學習裡面用得最多的一類監督學習
。
監督學習:主要通過對樣本資料中的特徵與標籤之間的規律,從而對新樣本資料進行**。
監督學習包括回歸**和分類**兩種;這兩種的區別主要看標籤是連續型的數值還是離散型的類別。
比如:房價的數值**就是回歸**,房價的漲跌**就是分類**。
因為房價的數值是可以有很多無限個連續的值,而房價的漲跌**只有有限的兩種類別(漲和跌)
1)回歸**–房價的**
假如你朋友在深圳南山區深圳灣片區有一套120平公尺的房子,現在因為急需用錢,想知道這套房子能賣多少錢?
回歸**:收集同片區房價與面積的相關資料,回歸演算法通過學習房價與面積之間的規律,擬合出乙個函式,通過這個函式對這套120平公尺的房子進行估價。
注意:
不同的回歸演算法擬合的函式略有不同;演算法我們將在後面講到。
當影響房價的特徵有多到數不清的情況,演算法也是一樣進行學習的。
2)分類**–腫瘤的鑑定
現在從醫療記錄上有這樣一些資料:隨著腫瘤的大小以及年齡分別呈現良性與惡性的資料。
分類**:通過分類演算法對資料進行學習,挖掘規律,把良性腫瘤和惡性腫瘤分開。當有新的病人(圖中綠色的圓圈)問診,就可以根據他的腫瘤的症狀進行判斷。
監督學習演算法可以看作乙個黑盒模型,不同的演算法學習資料的方式不一樣,但是目的都是一樣的,通過擬合特徵與標籤之間的關係,基於這種關係來**新的樣本。
4種既能用於回歸**又能用於分類**的演算法
1)支援向量機演算法
- 分類:通過將低維的資料對映到高維空間,在高維空間找乙個最優超平面使得分類間隔最大。
階段1、根據資料判斷建模分析屬於機器學習哪種問題:
1)如果資料是帶有標籤的資料,那麼就是監督學習問題。
如果標籤是連續資料–回歸問題;
如果標籤是離散資料–分類問題。
2)如果資料沒有標籤,那麼就是乙個無監督學習問題。
3)如果是通過學習,優化行為對環境的反應,就是乙個強化學習問題。
階段2、資料處理
80%時間精力都集中在資料處理階段,資料處理的好壞直接決定後面模型的效能。包括資料清洗,提取特徵,缺失值處理,資料轉換(數位化/向量化/特徵化)等過程。資料處理需要結合業務特點,資料環境特點增加特殊處理技巧。
階段3、選擇模型及訓練
資料處理好之後,需要選擇合適的演算法來對資料進行訓練。沒有哪種演算法是最好的,也沒有哪種場合必須用哪種演算法,在建模過程中,我們需要選擇各種演算法進行訓練,並對模型的優劣進行比較,得出最適合當前資料下的模型。
階段4:模型測試
將得到的模型應用在測試集合上,並用相應的量化指標來幫助我們對模型的效能進行分析。
階段5:引數調優
如果模型不是很理想的情況下,需要調整引數(需要對演算法非常了解),或者返回去更換模型,甚至返回到資料處理階段對資料重新處理。
最後當我們的模型應用實際的場景當中(如房價**),這時候也需要收集實時產生的資料作為樣本來不斷更新和改進我們的模型。整個過程是乙個不斷促進,迴圈往復的過程。
監督學習和無監督學習 監督學習與非監督學習
監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...
監督學習,無監督學習和半監督學習
監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 2 概念 監督學習 用一部分已知分類 有標記的樣本來訓練機器後,讓它用學到的特徵,對沒有還分類 無標記的樣本進行分類 貼標籤。一句話...
監督學習 非監督學習 半監督學習(主動學習)
統計學習通常包括監督學習 非監督學習 半監督學習以及強化學習,在機器學習的領域中前三種研究的比較多的,也是運用的比較廣泛的技術。監督學習的任務是學習乙個模型,使模型對給定的任意的乙個輸入,對其都可以對映出乙個 結果。這裡模型就相當於我們數學中乙個函式,輸入就相當於我們數學中的x,而 的結果就相當於數...