1. 基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,回歸
2. 概念學習:人類學習概念:鳥,車,計算機
定義:概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式
概念定義在例項(instance)集合之上,這個集合表示為x。(x:所有可能的日子,每個日子的值由 天氣,溫度,濕度,風力,水溫,預 報6個屬性表示。
待學習的概念或目標函式成為目標概念(target concept), 記做c。
c(x) = 1, 當享受運動時, c(x) = 0 當不享受運動時,c(x)也可叫做y
x: 每乙個例項
x: 樣例, 所有例項的集合
學習目標:f: x -> y
4. 訓練集(training set/data)/訓練樣例(training examples): 用來進行訓練,也就是產生模型或者演算法的資料集
測試集(testing set/data)/測試樣例 (testing examples):用來專門進行測試已經學習好的模型或者演算法的資料集
特徵向量(features/feature vector):屬性的集合,通常用乙個向量來表示,附屬於乙個例項
標記(label): c(x), 例項類別的標記
正例(positive example)
反例(negative example)
6. 分類 (classification): 目標標記為類別型資料(category)
回歸(regression): 目標標記為連續性數值 (continuous numeric value)
本身了解過機器學習的概念,所以上面的概念基本沒什麼可說的,對於老師講的這裡有點體會,更明確了分類和回歸所面對的,可能以前也知道,但是自己沒有總結說,分類為類別資料,回歸是連續型資料,暫且這樣認知。
7. 例子:研究腫瘤良性,惡性於尺寸,顏色的關係
特徵值:腫瘤尺寸,顏色
標記:良性/惡性
有監督學習(supervised learning): 訓練集有類別標記(class label)
無監督學習(unsupervised learning): 無類別標記(class label)
半監督學習(semi-supervised learning):有類別標記的訓練集 + 無標記的訓練集
以前理解的這裡是有監督的是需要人工標註,無監督的是不需要人工標註,現在這樣的區分好像更確切一些。簡單說,有監督的就是x,y都已知,我們根據資料中x,y 的關係得到方程(關係式),然後分類其他的;無監督的是沒有y值,只有x值,讓他自己計算分類。
8. 機器學習步驟框架
8.1 把資料拆分為訓練集和測試集
8.2 用訓練集和訓練集的特徵向量來訓練演算法
8.2 用學習來的演算法運用在測試集上來評估演算法 (可能要設計到調整引數(parameter tuning), 用驗證集(validation set)
機器學習筆記 基本概念
首先我們以人來舉例 你在買蘋果的時候,看到乙個蘋果,它黃裡透紅 果皮粗糙 硬度稍軟,我們就可以判斷它比較甜,這是因為我們已經有了類似的經驗,通過對經驗的應用就可以做出相應的判斷。這種對經驗的利用是我們自發形成的,但是機器是否能做到呢。機器學習就是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗...
ML筆記 機器學習基本概念
監督學習 以已知結果的資料集作為訓練樣本。基本流程 輸入資料 特徵工程 模型訓練 模型部署 模型應用。監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示,也就是說學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間。假設空間的確定意味著學...
機器學習常見基本概念筆記
監督學習和非監督學習 有監督學習的方法就是識別事物,識別的結果表現在給待識別資料加上了標籤。因此訓練樣本集必須由帶標籤的樣本組成。比如分類和回歸。而無監督學習方法只有要分析的資料集的本身,預先沒有什麼標籤。如果發現資料集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標籤對上號為目的。如...