機器學習術語

2021-08-08 12:21:31 字數 1426 閱讀 1753

本文的概念來自於周志華的西瓜書《機器學習》

對機器學習的定義:機器學習致力於研究如何通過計算,利用經驗來改善系統自身效能。(這裡的經驗就是資料)

機器學習研究的主要內容:計算機上產生模型的演算法,即「學習演算法」。

機器學習的過程:首先需要大量的資料集合,然後通過機器學習演算法進行計算,產生乙個模型,利用這個模型對新資料進行判斷或者**。

機器學習的目標:使學得的模型能很好的適用於「新樣本」

西瓜資料集 編號

色澤根蒂

敲聲好瓜1青綠

蜷縮濁響是2

烏黑蜷縮濁響是

3青綠硬挺清脆否4

烏黑稍蜷沉悶否

資料集(data set):這組記錄的集合稱為乙個「資料集」

樣本(示例):關於乙個事件或者物件的描述的一條記錄。比如第1行(色澤=青綠,根蒂=蜷縮,敲聲=濁響)就是乙個樣本

特徵(屬性):反應事件或物件在某方面的表現或者性質的事項。比如:色澤、根蒂、敲聲

樣本空間(屬性空間):屬性張成的空間

d=包含m個示例的資料集,其中xi=(xi1,xi2,xi3~~~xid),則d為樣本xi的「維數」

訓練(學習):從資料中學得模型的過程。每個樣本成為乙個「訓練樣本」,樣本組成的集合稱為「訓練集」

假設(hypothesis):學得的模型對應了關於資料的某種潛在規律,成為「假設」

真相(真實):這種資料中潛在規律的本身成為真相或者真實。學習的過程就是為了找出或者逼近真

監督學習和無監督學習:

1.監督學習(supervised learning):訓練資料集中有標記資訊

如:((色澤=青綠,根蒂=蜷縮,敲聲=濁響),好瓜)

好瓜稱為「標記」(label),有了標記資訊的示例稱為「樣例」,所有標記的集合稱為「標記空間」或者「輸出空間」

分類和回歸是監督學習的代表

分類:**離散值

回歸:**連續值

2.無監督學習(unsupervised learning)訓練資料集中沒有標記資訊

如:(色澤=青綠,根蒂=蜷縮,敲聲=濁響)

聚類是無監督學習的代表

聚類:將訓練集中示例分成若干組,每一組稱為乙個「簇」

測試:學的模型後,需要對其進行**的過程稱為「測試」,被**的樣本稱為「測試樣本」(testing sample)y=f(x)

泛化:學得的模型適用於新樣本的能力,稱為「泛化」,具有強泛化能力的模型能很好的適用於整個樣本空間

總結:機器學習可以分為監督學習和半監督學習,主要區別在於樣本是否有標記,其學習的過程為:在大量資料集合的基礎上,選擇合適的機器學習演算法進行學習,學習結束後會得到乙個模型,這個模型能夠反映這些資料中的規律,它需要具有強的泛化能力,即適用於整個樣本空間。最終達到我們利用模型來進行**和判斷的目的。

機器學習 基礎術語

模型 指從資料當中學到的結果 維 代表樣本具有的特徵數 特徵 樣本的某乙個明確的屬性 向量 樣本的特徵的集合 標記 對於樣本所需求得的值 分類 代表 值為離散的 回歸 代表 值為連續的 二分類任務 標記的預期值只有兩個 多分類任務 標記的預期值有多個 聚類 將訓練集中的樣本分成若干組 簇 上述聚類中...

機器學習常用術語

機器學習作為人工智慧的乙個重要領域,我們有必要對其基本術語有清晰的理解 2 空間 就是表示 可能存在的取值 比如模型空間就是表示 所有可能的模型的取值 引數空間 表示 所有可能的引數 樣本空間表示 所有可能的樣本 3 樣本 是指資料集中的每一條單獨的資料。如沒有說明,會預設資料集中有n個樣本,用符號...

機器學習常用術語

泛化能力,過擬合,欠擬合,效能度量 泛化能力指的是機器學習演算法對新鮮樣本的適應能力。機器能從訓練樣本中學到適用於所有潛在樣本的普遍規律,在遇到新樣本中能做出正確判別的能力 把樣本中的一些雜訊特性也學習下來了,泛化能力差 比如決策樹演算法中,id3演算法中的編號會被該演算法認為是資訊增益最大的屬性,...