機器學習主要術語

2022-07-18 09:51:10 字數 1080 閱讀 4917

什麼是(監督式)機器學習?簡單來說,它的定義如下:

下面我們來了解一下機器學習的基本術語。

在簡單線性回歸中,標籤是我們要**的事物,即 y 變數。標籤可以是小麥未來的**、中顯示的動物品種、音訊剪輯的含義或任何事物。

在簡單線性回歸中,特徵是輸入變數,即 x 變數。簡單的機器學習專案可能會使用單個特徵,而比較複雜的機器學習專案可能會使用數百萬個特徵,按如下方式指定:

'>

在垃圾郵件檢測器示例中,特徵可能包括:

樣本是指資料的特定例項:x。(我們採用粗體 x 表示它是乙個向量。)我們將樣本分為以下兩類:

有標籤樣本同時包含特徵和標籤。即:

1labeled examples::(x,y)

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是使用者明確標記為「垃圾郵件」或「非垃圾郵件」的各個電子郵件。

例如,下表顯示了從包含加利福尼亞州房價資訊的資料集中抽取的 5 個有標籤樣本:

housingmedianage

(特徵)

totalrooms

(特徵)

totalbedrooms

(特徵)

medianhousevalue

(標籤)

155612

1283

66900

197650

1901

80100

17720

17485700

141501

33773400

201454

32665500

無標籤樣本包含特徵,但不包含標籤。即:

1unlabeled examples::(x,?)

在使用有標籤樣本訓練了我們的模型之後,我們會使用該模型來**無標籤樣本的標籤。在垃圾郵件檢測器示例中,無標籤樣本是使用者尚未新增標籤的新電子郵件。

模型定義了特徵與標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與「垃圾郵件」緊密聯絡起來。我們來重點介紹一下模型生命週期的兩個階段:

回歸模型可**連續值。例如,回歸模型做出的**可回答如下問題:

分類模型可**離散值。例如,分類模型做出的**可回答如下問題:

機器學習術語

本文的概念來自於周志華的西瓜書 機器學習 對機器學習的定義 機器學習致力於研究如何通過計算,利用經驗來改善系統自身效能。這裡的經驗就是資料 機器學習研究的主要內容 計算機上產生模型的演算法,即 學習演算法 機器學習的過程 首先需要大量的資料集合,然後通過機器學習演算法進行計算,產生乙個模型,利用這個...

機器學習 基礎術語

模型 指從資料當中學到的結果 維 代表樣本具有的特徵數 特徵 樣本的某乙個明確的屬性 向量 樣本的特徵的集合 標記 對於樣本所需求得的值 分類 代表 值為離散的 回歸 代表 值為連續的 二分類任務 標記的預期值只有兩個 多分類任務 標記的預期值有多個 聚類 將訓練集中的樣本分成若干組 簇 上述聚類中...

機器學習常用術語

機器學習作為人工智慧的乙個重要領域,我們有必要對其基本術語有清晰的理解 2 空間 就是表示 可能存在的取值 比如模型空間就是表示 所有可能的模型的取值 引數空間 表示 所有可能的引數 樣本空間表示 所有可能的樣本 3 樣本 是指資料集中的每一條單獨的資料。如沒有說明,會預設資料集中有n個樣本,用符號...