ml–基本概念
一.機器學習的起源
機器學習最早是由一位人工智慧領域的先驅arthur samuel在2023年提出來的。本意指的是一種讓計算機在不經過明顯程式設計的情況下,對資料進行學習,並且做出**的方法,屬於電腦科學領域的乙個子集。公認的世界上第乙個自我學習專案就是samuel跳棋遊戲
二.有監督學習與無監督學習
有監督學習
在機器學習領域,有監督學習和無監督學習是兩種常用的方法。有監督學習是通過現有訓練資料集進行建模,再用模型對新的資料樣本進行分類或者回歸分析的機器學習方法。在監督式學習中,訓練資料集一般包含樣本特徵變數及分類標籤,機器使用不同的演算法通過這些資料推斷出分類的方法,並用於新的樣本中。目前有監督學習演算法已經比較成熟,並且在很多領域都有很好的表現
無監督學習
無監督學習或者說非監督式學習,則是在沒有訓練資料集的情況下,對沒有標籤的資料進行分析並建立合適的模型,以便給出問題解決方案的方法。在無監督學習當中,常見的兩種任務型別是資料轉換和聚類分析
資料轉換的目的是把本來非常複雜的資料集通過非監督學習演算法進行進行轉換,使其變得更容易理解,常見的資料轉換方法之一便是資料降維,即通過對特徵變數較多的資料集進行分析,將無關緊要的特徵變數去除,保留關鍵特徵變數(例如:把資料集降至二維,方便進行資料視覺化處理)
聚類演算法則是通過把樣本劃歸到不同分組的演算法,每個分組中的元素都具有比較接近的特徵。目前,聚類演算法主要應用在統計資料分析,影象分析,計算機視覺等領域
三.機器學習中的分類與回歸
分類和回歸是有監督學習中兩個最常見的方法。對於分類來說,機器學習的目標是對樣本的類標籤進行**,判斷樣本屬於哪乙個分類,結果是離散的數值
回歸分析來說,其目標是要**乙個連續的資料或者是範圍
四.模型的泛化,過擬合與欠擬合
模型的泛化(generalization)
在有監督學習中,我們會在訓練資料集上建立乙個模型,之後會把這個模型用於新的,之前從未見過的資料中,這個過程稱為模型的泛化
那麼我們用什麼樣的標準來判斷乙個模型的泛化是比較好的,還是比較差的呢?
過擬合(overfitting)
我們可以使用測試資料集對模型的表現進行評估。如果你在訓練資料集上使用了乙個非常複雜的模型,以至於這個模型在擬合訓練資料集時表現非常好,但是在測試資料集的表現非常差,說明模型出現了過擬合的問題
欠擬合(underfitting)
相反,如果模型過於簡單,連訓練資料集的特點都不能完全考慮到的話,那麼這樣的模型在訓練資料集和測試資料集的得分都會非常的差,這個時候我們說模型出現了欠擬合的問題
而只有模型在訓練資料集和測試資料集得分都比較高的情況下,我們才會認為模型對資料擬合的程度剛剛好,同時泛化的表現也會更出色
ML 基本概念
機器學習最早是由一位人工智慧領域的先驅arthur samuel在1959年提出來的。本意指的是一種讓計算機在不經過明顯程式設計的情況下,對資料進行學習,並且做出 的方法,屬於電腦科學領域的乙個子集。公認的世界上第乙個自我學習專案就是samuel跳棋遊戲 在機器學習領域,有監督學習和無監督學習是兩種...
ML筆記 機器學習基本概念
監督學習 以已知結果的資料集作為訓練樣本。基本流程 輸入資料 特徵工程 模型訓練 模型部署 模型應用。監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示,也就是說學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間。假設空間的確定意味著學...
基本概念 C 基本概念
由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...