機器學習隨筆 術語的簡單理解

2021-09-27 01:46:11 字數 1223 閱讀 3493

資料集:一組記錄的集合,每條記錄是關於乙個事件或物件的描述,稱為「樣本」。

屬性,特徵:反映事件或物件在某方面的表現或性質的

屬性控制項,樣本空間,輸入控制項:屬性張成的空間–(屬性組成的座標軸)

特徵向量:空間中的一點

訓練資料:訓練過程中使用的資料,其中每個樣本稱為訓練樣本

訓練集:訓練樣本組成的集合

假設:學得模型對應了關於資料的某種潛在規律

而潛在規律本身,則稱為「真相」或「真實」,學習過程就是為了找出或逼近真相。

標記:示例結果的資訊

用(xi,yi)表示第i個樣例,其中y是所有標記的集合,稱為「標記空間」或「輸出空間

分類:我們欲**的是離散值,二分類,乙個正類乙個反類;多分類

回歸:我們欲**的是連續值

測試:學得模型後,使用其進行**的過程,被**的樣本稱為「測試樣本」

聚類:將訓練集中的資料分成若干組,每組稱為乙個「簇」

聚類學習中,各種分簇的概念事先不知道

根據訓練資料是否有標記資訊學習任務分為「監督學習」和「無監督學習」,分類和回歸屬於前者,聚類屬於後者。

泛化能力:學得模型適用於新樣本的能力。

擬合和回歸:擬合的概念更廣泛,擬合包含回歸,還包含插值和逼近。擬合是一種資料處理的方式,不特指哪種方法.簡單的說就是你有一組資料,覺得這組資料和乙個已知的函式(這個函式的引數未定)很相似,為了得到最能表示這組資料特徵的這個函式,通過擬合這種方式(具體的數學方法很多)求得引數.而回歸是一種特定的數學方法,它可以實現資料擬合,得到函式的引數.也有些擬合得到的引數並非是函式的引數,如神經網路,得到的是這個神經網路的引數。

代價:簡單理解代價就是**值和實際值之間的差距,那對於多個樣本來說,就是差距之和。

機器學習 深度學習概念術語的理解

neuron nerve cell,神經細胞的別稱 描述 descriptive 則被稱為 unsupervised learning,也稱為知識發現 knowledge discovery 可見節點,不可見結點 什麼是end to end神經網路?端到端,更直觀地說,對應著輸入到輸出 輸入層到輸出...

機器學習術語

本文的概念來自於周志華的西瓜書 機器學習 對機器學習的定義 機器學習致力於研究如何通過計算,利用經驗來改善系統自身效能。這裡的經驗就是資料 機器學習研究的主要內容 計算機上產生模型的演算法,即 學習演算法 機器學習的過程 首先需要大量的資料集合,然後通過機器學習演算法進行計算,產生乙個模型,利用這個...

機器學習 基礎術語

模型 指從資料當中學到的結果 維 代表樣本具有的特徵數 特徵 樣本的某乙個明確的屬性 向量 樣本的特徵的集合 標記 對於樣本所需求得的值 分類 代表 值為離散的 回歸 代表 值為連續的 二分類任務 標記的預期值只有兩個 多分類任務 標記的預期值有多個 聚類 將訓練集中的樣本分成若干組 簇 上述聚類中...