1. 機器學習 明白一些基本概念
什麼是機器學習
研究如何通過計算的手段,利用經驗來改善系統自身的效能
通俗來講,讓**學著幹活
特徵:自變數
標籤:因變數
學習的種類
有監督學習:提供標籤,分類、回歸
無監督學習:無標籤,聚類
增強學習:也稱強化學習,馬爾科夫決策過程(markov decision processes,mdp)
主動學習:邊學習邊標註
遷移學習:從乙個域(domain)遷移(transfer)到另乙個域
整合學習:ensemble,三個臭皮匠賽個諸葛亮,boosting和bagging
兩大痛點
維度災難:資料量和特徵數
過擬合:模型泛化能力
學習的流程
預處理:資料重塑、缺失值處理(補全、統計為缺失特徵)
特徵工程:特徵沒做好,引數調到老。在已有的特徵上生成新的特徵,數值、類別
特徵選擇、降維:基於mic、pearson相關係數、正則化方法、模型,pca、tsne
訓練模型、調參:單模型,多模型融合,整合
評估模型:正確率(acurracy)、準確值(pecision)、召回值(recall)、f值、auc
**實現
你需要的都在這裡:
用機器學習來賭香港賽馬
2. 機器學習 常用經典模型及其實現
常用經典模型
1.線性回歸:有監督回歸,y=wx+b,x為m維向量,y、b為n維向量,w為n*m維矩陣
2.logistic回歸:有監督回歸,y=logit(wx+b)
3.貝葉斯:有監督分類,最可能的分類是概率最大的分類
4.k近鄰:有監督分類,knn,距離的定義
5.決策樹:有監督分類,樹形判斷分支,非線形邊界,+整合=隨機森林
6.支援向量機:有監督分類,將原空間變換到另一空間,在新空間裡尋找margin最大的分介面(hyperplane)
7.k-means:無監督聚類,初始化中心,不斷迭代,em演算法
8.神經網路:有監督和無監督都有,詳情參見下一章,深度學習
實現之前的準備
安裝scikit-learn:
sklearn、numpy
>>> from sklearn import svm
>>> x = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.svc()
>>> clf.fit(x, y)
svc(c=1.0, cache_size=200, class_weight=none, coef0=0.0,
decision_function_shape=none, degree=3, gamma='auto', kernel='rbf',
max_iter=-1, probability=false, random_state=none, shrinking=true,
tol=0.001, verbose=false)
>>> clf.predict([[2., 2.]])
array([1])
乙個簡單的例子:stable/auto_examples/svm/plot_iris.html#sphx-glr-auto-examples-svm-plot-iris-py
機器學習 基本概念,常用經典模型
1.機器學習 明白一些基本概念 什麼是機器學習 研究如何通過計算的手段,利用經驗來改善系統自身的效能 通俗來講,讓 學著幹活 特徵 自變數 標籤 因變數 學習的種類 有監督學習 提供標籤,分類 回歸 無監督學習 無標籤,聚類 增強學習 也稱強化學習,馬爾科夫決策過程 markov decision ...
機器學習基本概念
什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...
機器學習基本概念
1.基本的概念 領域集 乙個任意的集合 集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集 學習器所追求的結果集合。可以為,器想要得到的最終資料。訓練資料 帶標籤的領域及元素集合,通常會組成乙個區域性聚合s,也叫作訓練集。2.機器學習的一般流程 採集資料 標記 訓練 得到 器 乙個學習...