機器學習概述

2021-08-25 12:05:17 字數 1796 閱讀 6424

什麼是機器學習?(what is machine learning?)

machines can "learning" by ayalyzing large amouts of data.

ml是一種重在尋找資料中的模式並使用這些模式來做出**的研究和演算法的門類。ml是ai的一部分,並且和知識發現與資料探勘有所交集。

1、選擇資料(三組:訓練資料、驗證資料、測試資料)

2、模型資料(使用訓練資料來構建使用相關特徵的模型)

3、驗證模型

4、測試模型

5、使用模型

6、除錯模型

1、符號主義:使用符號、規則和邏輯來表徵知識和進行邏輯推理,代表演算法:決策樹;

2、貝葉斯派:獲取發生的可能性來進行概率推理,代表演算法:樸素貝葉斯、馬爾科夫;

3、聯結主義:使用概率矩陣和加權神經元來動態地識別和歸納模式,代表演算法:神經網路;

4、進化主義:生成變化、然後特定目標獲取其中最優的解,代表演算法:遺傳演算法;

5、analogizer:根據約束條件來優化函式,代表演算法:支援向量機。

2023年代:

1990~2023年代:

2023年代早期到中期:

2023年代末期:

1、決策樹(decision tree)

優點:擅長對人、地點、事物一系列不同特徵、品質、特性進行評估

場景:基於規則的信用評估、賽馬結果**

2、支援向量機(support vector machine)

優點:支援向量機擅長在變數x與其它變數之間進行二元分類操作,無論其關係是否是線性的

場景:新聞分類、手寫識別

3、回歸(regression)

優點:回歸可用於識別變數之間的連續關係

場景:路面交通流量分析、郵件過濾

4、樸素貝葉斯分類(***** bayes classification)

優點:對於在小資料集上有顯著特徵的相對關係,樸素貝葉斯方法可以對其進行快速分類

場景:情感分析、消費者分類

5、隱馬爾可夫模型(hidden markov model)

優點:容許資料的變化性,適用於識別和**操作

場景:面部表情分析、氣象**

6、隨機森林(radom forest)

場景:使用者流失分析、風險評估

7、迴圈神經網路(recurrent neural network)

優點:在存在大量的有序資訊時具有**能力

場景:影象分類與字幕新增、政治情感分析

8、長短期記憶(lstm)和門控迴圈單元神經網路(grunn)

優點:有更好的記憶能力

場景:自然語言處理、翻譯

9、卷積神經網路(convolution neural network)

優點:當存在非常大的資料集,大量特徵和複雜的分類任務時,卷積神經網路非常有用

場景:影象識別、文字轉語音、藥物發現

策略

演算法

有監督學習基本框架:

帶目標標記的訓練資料 ==》學習演算法(決策樹、隨機森林、gbdt、xgboost、svm)==》輸入特徵-------f(x)------>**

常用有監督學習模型:

回歸:線性回歸、決策樹、隨機森林、gbdt、xgboost回歸;

分類:邏輯回歸、決策樹、隨機森林、svm、gbdt、樸素貝葉斯、xgboost分類、k近鄰

無監督學習:

訓練集無標籤,給定輸入樣本集,機器就可以從中推演出指定目標變數的可能結果。

無監督學習將資料集合分成由類似的物件組成的多個類的過程被稱為聚類。

機器學習概述

機器學習之父 卡內基梅隆大學計算機學院院長湯姆 公尺切爾 tom michael mitchell 在1997年給機器學習這樣的定義 對於乙個給定的任務t task 在合理的效能度量方案p performance 的前提下,某個計算程式可以自主學習任務t的經驗e experience 隨著提供合適的...

機器學習概述

在面對新來的事物做判斷時,傳統的方式會採用一長串負責的規則去進行判斷,如果新來的樣本符合我們規則,我們就可以準確的判斷樣本的好壞 品質等型別,當遇見我們規則不發匹配的時候,我們就無法正確做出判斷,以及隨後要更新我們已有的規則。在面對大資料 變化頻發的狀況下,傳統的方式不適合去使用。example e...

機器學習概述

一.機器學習分類 1.監督學習 監督學習是指利用一組已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,也稱為監督訓練或有教師學習。在監督學習的過程中會提供對錯指示,通過不斷地重複訓練,使其找到給定的訓練資料集中的某種模式或規律,當新的資料到來時,可以根據這個函式 結果。監督學習的訓練集要求包...