機器學習的本質:利用樣本資料,借助各種機器學習方法,找到乙個從變數x到y的對映函式f,並用對映函式f來**測試樣本的標籤值。
邏輯回歸:即線性回歸,它是一種線性擬合演算法,可以簡單理解為,通過樣本資料,找到相應的線性函式對映,即截距項的值和斜s值。
擬合樣本資料的思想:求能夠使最小二乘項(損失函式)取得最小值對應的截距項值和斜率值。
過擬合:對樣本資料的擬合程度過高,這往往是由於擬合直線過於複雜導致。
過擬合產生的原因:過分追求直線對樣本資料的擬合度,忽視了訓練模型的泛化能力(推廣能力)。
過擬合解決的方法之一:在損失函式中增加正則項,正則項的意義在於增加擬合係數的權重,從而達到簡化模型,減弱過擬合程度的目的。
機器學習基礎概念
聚類 將本身沒有類別的樣本聚集成不同的組,這樣的一組資料物件的集合叫做簇,並且對每乙個這樣的簇進行描述的過程,他的目的是使得屬於同乙個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。資料預處理 在資料探勘之前使用,大大提高了資料探勘的質量 處理缺失值 將含有缺失值的記錄刪除 根據變數之間的相...
機器學習基礎概念
資料量大 tb pb eb zb yb hdfs 速度快 資料增長速度快 資料處理速度快 價值密度低 密度 有價值資料 all 機器學習演算法解決 人工智慧 機器學習 深度學習的關係 資料 資料分析 資料探勘 機器學習 致力於研究如何通過cpu和gpu 圖形處理器 的計算,利用經驗 資料來改善 計算...
機器學習 基礎概念 一
lstm rnn長短期記憶rnn 自編碼autoencoder 生成對抗網路gan 梯度下降 gradient descent 人體900億神經細胞組 體神經網路。神經網路的構建 可稱之人工神經元的組合,在外部刺激上不斷改變自身。人工神經網路可以分為輸入層,隱藏層 資訊的加工處理層 輸出層。中間的 ...