機器學習基本概念和模型訓練基本問題

2022-07-08 21:00:18 字數 1844 閱讀 3703

二叉樹很容易理解,在這裡我們一般用滿二叉樹:就是非葉子節點都有2個分支的樹形資料結構

決策樹最初是用來做決策用的,就好像下面的見不見相親物件的決策過程一樣;

如果把最後的決策結果看成是分類,那麼決策樹就可以用來分類了,例如,下面的例子就是把相親物件分為見和不見兩種。

假如下面是你是否見相親物件的決策樹,如果你老媽有你給的這個決策樹,那麼你老媽給你介紹乙個相親物件之前,按照這個決策樹走一遍,就能**你是否相見這個相親物件了

下面通過乙個例子來區分這些概念

我們的資料集是一百個點,如下圖所示,是二維平面的100個點,這個就是我們總的資料集(全集),這些資料在文字中就是下面第二張圖所示的三個字段(x座標,y座標,label(正樣本還是負樣本))

對於每個資料點來說,都有自己的x,y座標以及自己的類別(正還是負,0或者1);

而我們的目標是通過每個資料點的x,y座標去確定該資料點的類別,但是我們不想每來乙個資料點都自己親眼觀察去判斷,我們希望教會機器怎麼去辨別每個資料點的類別。

我們需要告訴機器什麼樣的資料點的類別是1,什麼樣的資料點的類別是0,這就是正負樣本

我們把正負樣本放在一起,就組成了乙個資料集,並從中抽取一部分或者全部,這就是訓練集

我們要教會機器通過什麼屬性來區分資料點的類別,例如我們教會機器通過資料點的x,y座標來判斷資料點的類別,那麼在這裡x,y座標就是特徵

教會了機器區分資料點,一般我們需要驗證機器區分的正確率,我們需要用一些已知類別的資料點,對比這些資料點原本的類別和機器辨別出來的類別,計算機器區分的正確率,這些資料點的特徵和類別就是驗證集。

訓練集和驗證集都是正負樣本組成的集合的子集,兩者資料的格式是一樣的。一般來說我們可以在正負樣本集調整訓練集和驗證集的比例。

最後,我們有一批新的資料點,我們只有這些資料點的特徵(x,y座標),我們想讓機器**這些資料點的類別,這些只有特徵的資料集我們成為**集。

驗證集在驗證的過程中也充當了**集的角色,不過驗證集自帶類別,可以驗證**的準確性,而**集則是完全依賴與機器的**。

所以,我們需要保證**集和訓練集、驗證集是屬於同乙個樣本空間的,否則,**的結果可能不如人意。

下面我們來看下模型訓練過程中常見的問題

1:樣本選擇的問題

在這個例子中,我們是有乙個全集的,我們可以看到資料整體分布,這是比較理想的;

然而很多時候,我們甚至不知道樣本空間的邊界在**,我們不知道我們抽取的正負樣本是否能代表整個樣本空間?

2:正負樣本比例問題

在這個例子中,正負樣本比例1:1,然而,在實際資料中,我們甚至不知道真實的樣本空間裡面正負樣本的比例;

而正負樣本的比例有時候會對模型的評價產生影響

3:模型評價的問題

我們一般通過驗證集來檢驗模型的好壞,然而模型是過擬合還是欠擬合我們是很難衡量的,而過擬合還是欠擬合一般也是通過驗證結果來判斷,但是訓練集和驗證集的選擇有一定的隨機性,

所以,模型評價也是乙個難題。

而且,對於不同的集合,對模型的要求也是不一樣的,是盡量不要**錯,還是盡量找回更多,因實際情況而定。

機器學習基本概念

什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...

機器學習基本概念

1.基本的概念 領域集 乙個任意的集合 集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集 學習器所追求的結果集合。可以為,器想要得到的最終資料。訓練資料 帶標籤的領域及元素集合,通常會組成乙個區域性聚合s,也叫作訓練集。2.機器學習的一般流程 採集資料 標記 訓練 得到 器 乙個學習...

機器學習基本概念

1.基本概念 訓練集 測試集 特徵值 監督式學習 非監督學習 半監督學習 分類 回歸 2.概念學習 概念學習是指從某個布林函式的輸入輸出訓練樣例中推斷出該布林函式。3.樣例 天氣 溫度 濕度 風力 水溫 預報 享受運動 1 晴 暖 普通 強 暖 一樣 是 2 晴 暖 大 強 暖 一樣 是 3 雨 冷...