資料量大
* tb—pb—eb—zb—yb hdfs
速度快* 資料增長速度快
* 資料處理速度快
價值密度低
* 密度=有價值資料/all
* 機器學習演算法解決
人工智慧、機器學習、深度學習的關係
資料、資料分析、資料探勘、機器學習
* 致力於研究如何通過cpu和gpu(圖形處理器)的計算,利用經驗/資料來改善(計算機)系統自身的效能。
* 有乙個**的過程
* 確定性問題
* 數值計算問題
* 基於專家發現的規則,指定規則,只需要新資料帶入規則即可得到**結果。
* x(特徵資料)——f(函式—模型)——》y(結果資料)
* 模型=資料+演算法
* 樣本(sample):記錄、物件《——》二維表的行
* 特徵:屬性《——》二維表的列
* 屬性/特徵空間:屬性/特徵張成的空間——n維空間
* 屬性/特徵向量:組成屬性空間中的一系列的點——樣本
* 特徵值:組成屬性或特徵向量中的點的具體值
* 誤差
* 泛化誤差:模型使用新資料的能力,通常將測試誤差用作泛化誤差
* 訓練誤差:模型在訓練集上的誤差
* 測試誤差:模型在測試集的誤差
* 誤差:**值-實際值
* 準確率
* 準確率:正確/all
* 錯誤率:1-準確率
* 通常將資料集進行切分:
* 訓練集:測試集=8::2 7:3 6:4
* 訓練集:x(特徵)+y(類別標籤)
* 測試集:x(特徵)+y(類別標籤)
* 類別型變數處理
* 天氣:晴天、陰天、雨天
* label encoder:標籤編碼——>0 1 2
* one-hot encoder:獨熱編碼
* 0 0 1
* 0 1 0
* 1 0 0
* 通常使用label encoder
* 回歸和分類問題
* 如果****值是連續值**,對應的問題是**回歸問題**
* 如果****值是離散值**,對應的問題是**分類問題**
非監督學習
半監督學習
強化學習
遷移學習
機器學習=演算法+資料+策略(損失函式)
* 策略:損失函式/目標函式/誤差函式
* 0-1損失函式:分類問題
* 平方損失函式:回歸問題
* 絕對損失函式:分類或回歸問題
* 對數損失:分類
* 演算法:演算法中包含的是引數資訊
* 解析解
* 最優解:梯度下降法、牛頓法
機器學習=模型+演算法+策略(損失函式)
* 模型:分為決策函式、條件概率分布
過擬合:模型在訓練集效果很好,在測試集效果較差
模型選擇基本原則:奧卡姆剃刀原則
交叉驗證
機器學習基礎概念
聚類 將本身沒有類別的樣本聚集成不同的組,這樣的一組資料物件的集合叫做簇,並且對每乙個這樣的簇進行描述的過程,他的目的是使得屬於同乙個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。資料預處理 在資料探勘之前使用,大大提高了資料探勘的質量 處理缺失值 將含有缺失值的記錄刪除 根據變數之間的相...
機器學習 基礎概念 一
lstm rnn長短期記憶rnn 自編碼autoencoder 生成對抗網路gan 梯度下降 gradient descent 人體900億神經細胞組 體神經網路。神經網路的構建 可稱之人工神經元的組合,在外部刺激上不斷改變自身。人工神經網路可以分為輸入層,隱藏層 資訊的加工處理層 輸出層。中間的 ...
機器學習基礎概念筆記
監督學習 分類和回歸屬於監督學習。這類演算法必須知道 什麼,即目標變數的分類資訊。常見演算法 k 近鄰演算法 線性回歸 樸素貝葉斯演算法 支援向量機 決策樹 lasso最小回歸係數估計 ridge回歸 區域性加權線性回歸 無監督學習 資料沒有類別資訊,不給定目標值。常見演算法 k 均值 最大期望演算...