1.什麼是機器學習?
概念:利用計算機從歷史資料中找到規律,並把這些規律用到未來不確定場景的決策。
場景:(人來幹)資料分析+(計算機來幹)機器學習
2.資料(歷史資料)
3.規律
從資料中找出規律
概率論和數理統計
(先抽樣->描述統計->假設檢驗)
用模型刻畫(擬合)規律(維度較少時還能用,多維的不可用)
4.機器學習發展的原動力
經濟驅動『資料變現、用資料代替expert
5.業務系統發展的歷史
基於專家經驗(頭腦風暴。。然後交給程式設計師寫iferlse)
基於統計-分緯度統計(依靠業務報表,資料倉儲,olap統計)
6.機器學習的典型應用
(1)關聯規則:「啤酒+尿片」
(2)使用者細分精準營銷:聚類(動感地帶、神州行、全球通)
(3)垃圾郵件:樸素貝葉斯
(4)信用卡欺詐:決策樹(銀行是否可以貸款給你,即風險識別)
(5)網際網路廣告:ctr預估【現行邏輯回歸】
(6)推薦系統:協同過濾
(7)自然語言處理:情感分析+實體識別+識別(深度學習)
............更多應用,包括語音識別、自動駕駛、智慧型機械人等等
7.機器學習和資料分析的區別
(一)資料特點不同:行為資料 vs 交易資料
海量資料 vs 少量資料
全量分析 vs 取樣分析
(二)解決業務問題不同:**未來 vs 歷史發生
(三)技術手段不同: clap vs 資料探勘
資料驅動 vs 使用者驅動
自動進行知識發現 vs 互動式分析
(四)參與者不同:計算機 vs 資料分析師
8.機器學習演算法分類
第一種分類方法:有監督學習
無監督學習
半監督學習
第二類分類演算法:分類和回歸
聚類標註
第三種分類方法(重要):生成模型(模稜兩可)【訓練模型思想上有本質區別】
判別模型(給定判斷)
9.機器學習中常用的演算法:
10.機器學習解決問題的框架:
確定目標:業務需求->資料->特徵工程
定義模型:定義損失函式->優化演算法
模型評估:交叉驗證->效果評估
軟工學習 理論篇
在學軟工之前先明確 何為軟體工程,它能做什麼,怎麼做才能為我們所用。先對軟體有乙個初步認識 軟體 程式 資料 文件。軟體是相對於硬體來說的,對比可以總結出軟體的特點 邏輯性 複雜性 高費用。軟體著實給人們帶來了很大的便利,但是它的發展不可能一帆風順的,中間肯定會遇到一系列的問題,產生軟體危機。應時代...
機器學習理論 GMM模型
李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...
機器學習 理論知識
一 混淆矩陣 confusion matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度 製圖精度 使用者精度等,這些精度指標從不同的側面反映了影象分類的精度。在人工智慧中,混淆矩陣 confusion matrix 是視覺化工具,特別用...