監督學習:訓練資料集每個樣本均有個已知的輸出項。
分類演算法:
決策樹演算法
knn貝葉斯演算法
svm演算法
lr演算法
回歸:線性回歸、lasso回歸、ridge回歸
無監督學習(非監督學習)
降維(pca、lda):
半監督學習(了解):一部分有類別標籤,一部分沒有類別標籤。
強化學習:(了解)
遷移學習:(了解)
深度(特徵)+強化(連續決策)+遷移(模型適應性問題)
32*32矩陣—轉化為1*1024列的矩陣----通過svm演算法-----識別結果
標籤標籤是我們要**的事物,即簡單線性回歸中的 y 變數。標籤可以是小麥未來的**、中顯示的動物品種、音訊剪輯的含義或任何事物。
特徵特徵是輸入變數,即簡單線性回歸中的 x 變數。簡單的機器學習專案可能會使用單個特徵,而比較複雜的機器學習專案可能會使用數百萬個特徵,按如下方式指定:
策略:損失函式
模型學習模型=模型+演算法+策略
模型:
當拿到資料之後從下面兩個角度思考問題:
從業務的角度思考
特徵工程
資料+選擇的演算法==>模型
通過測試集測試模型,給定最終模型
如果有新資料,通過模型給出**結果
2.過擬合
防火防盜防過擬合
奧卡姆剃刀原則:如果具有相同泛化誤差的模型,選擇較為簡單的模型(防止過擬合)
k則交叉驗證:
留一驗證:
課程中重點以python為主展開
機器學習導論
策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...
機器學習導論(一)
改變了思維方式 資料重要性 資料資源 資料資產 增值 方 資料分析 統計學 抽樣 資料科學 大資料 計算智慧型 複雜演算法 決策方面 基於目標決策 基於資料決策 業務方面 基於業務的資料化 基於資料的業務化 產業競合 以戰略為中心 以資料為中心 資料量大 tb pb zb hdfs分布式檔案系統 資...
機器學習導論(三)
監督學習 監督 supervised 是指訓練資料集中的每個樣本均有乙個已知的輸出項 類標label 輸出變數為連續變數的 問題稱為回歸問題,回歸演算法有 簡單線性回歸,多元線性回歸,lasson回歸,ridge回歸,elastictnet 輸出變數為有限個離散變數的 問題稱為分類問題,分類演算法有...