機器學習基礎概念

2021-08-28 17:27:43 字數 1614 閱讀 4860

資料量大

* tb—pb—eb—zb—yb hdfs

速度快* 資料增長速度快

* 資料處理速度快

價值密度低

* 密度=有價值資料/all

* 機器學習演算法解決

人工智慧、機器學習、深度學習的關係

資料、資料分析、資料探勘、機器學習

* 致力於研究如何通過cpu和gpu(圖形處理器)的計算,利用經驗/資料來改善(計算機)系統自身的效能。

* 有乙個**的過程

* 確定性問題

* 數值計算問題

* 基於專家發現的規則,指定規則,只需要新資料帶入規則即可得到**結果。
* x(特徵資料)——f(函式—模型)——》y(結果資料)

* 模型=資料+演算法

* 樣本(sample):記錄、物件《——》二維表的行

* 特徵:屬性《——》二維表的列

* 屬性/特徵空間:屬性/特徵張成的空間——n維空間

* 屬性/特徵向量:組成屬性空間中的一系列的點——樣本

* 特徵值:組成屬性或特徵向量中的點的具體值

* 誤差

* 泛化誤差:模型使用新資料的能力,通常將測試誤差用作泛化誤差

* 訓練誤差:模型在訓練集上的誤差

* 測試誤差:模型在測試集的誤差

* 誤差:**值-實際值

* 準確率

* 準確率:正確/all

* 錯誤率:1-準確率

* 通常將資料集進行切分:

* 訓練集:測試集=8::2    7:3    6:4

* 訓練集:x(特徵)+y(類別標籤)

* 測試集:x(特徵)+y(類別標籤)

* 類別型變數處理

* 天氣:晴天、陰天、雨天

* label encoder:標籤編碼——>0 1 2

* one-hot encoder:獨熱編碼

* 0 0 1

* 0 1 0

* 1 0 0

* 通常使用label encoder

* 回歸和分類問題

* 如果****值是連續值**,對應的問題是**回歸問題**

* 如果****值是離散值**,對應的問題是**分類問題**

非監督學習

半監督學習

強化學習

遷移學習

機器學習=演算法+資料+策略(損失函式)

* 策略:損失函式/目標函式/誤差函式

* 0-1損失函式:分類問題

* 平方損失函式:回歸問題

* 絕對損失函式:分類或回歸問題

* 對數損失:分類

* 演算法:演算法中包含的是引數資訊

* 解析解

* 最優解:梯度下降法、牛頓法

機器學習=模型+演算法+策略(損失函式)

* 模型:分為決策函式、條件概率分布

過擬合:模型在訓練集效果很好,在測試集效果較差

模型選擇基本原則:奧卡姆剃刀原則

交叉驗證

機器學習基礎概念

聚類 將本身沒有類別的樣本聚集成不同的組,這樣的一組資料物件的集合叫做簇,並且對每乙個這樣的簇進行描述的過程,他的目的是使得屬於同乙個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。資料預處理 在資料探勘之前使用,大大提高了資料探勘的質量 處理缺失值 將含有缺失值的記錄刪除 根據變數之間的相...

機器學習 基礎概念 一

lstm rnn長短期記憶rnn 自編碼autoencoder 生成對抗網路gan 梯度下降 gradient descent 人體900億神經細胞組 體神經網路。神經網路的構建 可稱之人工神經元的組合,在外部刺激上不斷改變自身。人工神經網路可以分為輸入層,隱藏層 資訊的加工處理層 輸出層。中間的 ...

機器學習基礎概念筆記

監督學習 分類和回歸屬於監督學習。這類演算法必須知道 什麼,即目標變數的分類資訊。常見演算法 k 近鄰演算法 線性回歸 樸素貝葉斯演算法 支援向量機 決策樹 lasso最小回歸係數估計 ridge回歸 區域性加權線性回歸 無監督學習 資料沒有類別資訊,不給定目標值。常見演算法 k 均值 最大期望演算...