機器學習 基本概念,常用經典模型

2022-03-25 10:28:30 字數 1646 閱讀 3347

1. 機器學習 明白一些基本概念

什麼是機器學習

研究如何通過計算的手段,利用經驗來改善系統自身的效能

通俗來講,讓**學著幹活

特徵:自變數

標籤:因變數

學習的種類

有監督學習:提供標籤,分類、回歸

無監督學習:無標籤,聚類

增強學習:也稱強化學習,馬爾科夫決策過程(markov decision processes,mdp)

主動學習:邊學習邊標註

遷移學習:從乙個域(domain)遷移(transfer)到另乙個域

整合學習:ensemble,三個臭皮匠賽個諸葛亮,boosting和bagging

兩大痛點

維度災難:資料量和特徵數

過擬合:模型泛化能力

學習的流程

預處理:資料重塑、缺失值處理(補全、統計為缺失特徵)

特徵工程:特徵沒做好,引數調到老。在已有的特徵上生成新的特徵,數值、類別

特徵選擇、降維:基於mic、pearson相關係數、正則化方法、模型,pca、tsne

訓練模型、調參:單模型,多模型融合,整合

評估模型:正確率(acurracy)、準確值(pecision)、召回值(recall)、f值、auc

**實現

你需要的都在這裡:

用機器學習來賭香港賽馬

2. 機器學習 常用經典模型及其實現

常用經典模型

1.線性回歸:有監督回歸,y=wx+b,x為m維向量,y、b為n維向量,w為n*m維矩陣

2.logistic回歸:有監督回歸,y=logit(wx+b)

3.貝葉斯:有監督分類,最可能的分類是概率最大的分類

4.k近鄰:有監督分類,knn,距離的定義

5.決策樹:有監督分類,樹形判斷分支,非線形邊界,+整合=隨機森林

6.支援向量機:有監督分類,將原空間變換到另一空間,在新空間裡尋找margin最大的分介面(hyperplane)

7.k-means:無監督聚類,初始化中心,不斷迭代,em演算法

8.神經網路:有監督和無監督都有,詳情參見下一章,深度學習

實現之前的準備

安裝scikit-learn:

sklearn、numpy

>>> from sklearn import svm

>>> x = [[0, 0], [1, 1]]

>>> y = [0, 1]

>>> clf = svm.svc()

>>> clf.fit(x, y)

svc(c=1.0, cache_size=200, class_weight=none, coef0=0.0,

decision_function_shape=none, degree=3, gamma='auto', kernel='rbf',

max_iter=-1, probability=false, random_state=none, shrinking=true,

tol=0.001, verbose=false)

>>> clf.predict([[2., 2.]])

array([1])

乙個簡單的例子:stable/auto_examples/svm/plot_iris.html#sphx-glr-auto-examples-svm-plot-iris-py

機器學習 基本概念,常用經典模型

1.機器學習 明白一些基本概念 什麼是機器學習 研究如何通過計算的手段,利用經驗來改善系統自身的效能 通俗來講,讓 學著幹活 特徵 自變數 標籤 因變數 學習的種類 有監督學習 提供標籤,分類 回歸 無監督學習 無標籤,聚類 增強學習 也稱強化學習,馬爾科夫決策過程 markov decision ...

機器學習基本概念

什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...

機器學習基本概念

1.基本的概念 領域集 乙個任意的集合 集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集 學習器所追求的結果集合。可以為,器想要得到的最終資料。訓練資料 帶標籤的領域及元素集合,通常會組成乙個區域性聚合s,也叫作訓練集。2.機器學習的一般流程 採集資料 標記 訓練 得到 器 乙個學習...