機器學習基礎 1

2021-09-10 09:30:14 字數 1226 閱讀 8701

深度學習是機器學習的乙個特定分支。我們要想充分理解深度學習,必須對機器學習的基本原理有深刻的理解。

機器學習演算法是一種能夠從資料中學習的演算法。我們所說的「學習」是什麼意思呢?mitchell(1997)提供了乙個簡潔的定義:對於某類任務t和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。

2、任務t

從 『『任務』』 的相對正式的定義上說,學習過程本身不能算是任務。通常機器學習任務定義為機器學習系統應該如何處理樣本(example)。樣本是指我們從某些希望機器學習系統處理的物件或事件中收集到的已經量化的特徵(feature)的集合。常見的有:分類、輸入缺失分類、回歸、轉錄、機器翻譯、結構化輸出、異常檢測、合成和取樣、缺失值填補、去噪、密度估計或概率質量函式估計。

3、效能度量p

了評估機器學習演算法的能力,我們必須設計其效能的定量度量。通常效能度量 p 是特定於系統執行的任務 t 而言的。

對於諸如分類、缺失輸入分類和轉錄任務,我們通常度量模型的準確率(accuracy)。準確率是指該模型輸出正確結果的樣本比率。我們也可以通過錯誤率(errorrate)得到相同的資訊。錯誤率是指該模型輸出錯誤結果的樣本比率。我們通常把錯誤率稱為 0 − 1損失的期望。在乙個特定的樣本上,如果結果是對的,那麼 0 − 1損

失是 0;否則是 1。

通常,我們會更加關注機器學習演算法在未觀測資料上的效能如何,因為這將決定其在實際應用中的效能。因此,我們使用測試集(test set)資料來評估系統效能,將其與訓練機器學習系統的訓練集資料分開。

4、經驗e

根據學習過程中的不同經驗,機器學習演算法可以大致分類為無監督(unsupervised)演算法和監督(supervised)演算法。

無監督學習演算法(unsupervised learning algorithm)訓練含有很多特徵的資料集,然後學習出這個資料集上有用的結構性質。在深度學習中,我們通常要學習生成資料集的整個概率分布,顯式地,比如密度估計,或是隱式地,比如合成或去噪。還有一些其他型別的無監督學習任務,例如聚類,將資料集分成相似樣本的集合。監督學習演算法(supervised learning algorithm)訓練含有很多特徵的資料集,不過資料集中的樣本都有乙個標籤(label)或目標(target)。例如,iris 資料集註明了每個鳶尾花卉樣本屬於什麼品種。監督學習演算法通過研究 iris 資料集,學習如何根據測量結果將樣本劃分為三個不同品種。

統計機器學習 1 統計機器學習基礎

網路 演算法 機器 優化 概率 統計 資料 矩陣 資訊 模型 推理 獲知識 靠學習 we are drowning in information and starving for knowledge.john naisbitt data model knowledge mlstatistics 備註...

機器學習實戰筆記 1 機器學習基礎

監督學習的兩個任務 分類和回歸分析 數值型資料 分類方法思路 這個表至關重要,叫做特徵向量表 特徵1特徵2 目的變數 類別 例項1 例項2 如上表,分類思路如下 用大量的已分類資料 其目標變數的值已給出 組成的訓練集進行訓練,該訓練集由若干個訓練樣本構成,每個訓練樣本是乙個例項 測試樣本 不提供目標...

機器學習基礎 1 概述

機器學習 通過已有的資料,對未來進行 的原則,方法和演算法。機器學習的任務 構建模型 y f x,1.y 輸出 2.x 輸入 3.需要學習的引數 回歸 classification 輸出 y 是連續的。分類 regression 輸出 y是離散的。有監督學習 supervised learning ...