04 機器學習 資料探勘與機器學習導論

2021-09-27 11:30:36 字數 3232 閱讀 6134

簡而言之,資料探勘(data mining)是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。

機器學習可以用來作為資料探勘的一種工具或手段;

資料探勘的手段不限於機器學習,譬如還有諸如統計學等眾多方法;

但機器學習的應用也遠不止資料探勘,其應用領域非常廣泛,譬如人工智慧;

3.1 定義

機器學習(machine learning, ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

它是人工智慧的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域。目前,世界上共有幾百種不同的機器學習演算法。

3.2 機器學習演算法類別

3.2.1 分類與聚類

定義:給定一堆樣本資料,以及這些資料所屬的類別標籤,通過演算法來對**新資料的類別

定義:事先並不知道一堆資料可以被劃分到哪些類,通過演算法來發現資料之間的相似性,從而將相似的資料劃入相應的類,簡單地說就是把相似的東西分到一組

3.2.2 常見的分類與聚類演算法

3.2.3監督學習與無監督學習

機器學習按照訓練資料是否有「先驗知識」,一般劃分為三類:

監督學習(supervised learning)

半監督學習(semi-supervised learning)

無監督學習(unsupervised learning)

監督式學習技術需要關於結果的先驗知識

無監督學習技術不需要先驗知識。

3.3 機器學習的應用步驟

需求分析

收集資料

探索資料特性

提取資料特徵並建模[這一部分需要工具的嫻熟和豐富的經驗,一定的抽象能力和對資料的敏感]

開發**(常用語言:r語言,python語言)

訓練模型[這一部分需要熟練的開發能力]

應用系統整合(比如將訓練好的演算法模型整合到推薦系統中)

3.4 機器學習必需數學知識

在資料探勘所用的機器學習演算法中,幾乎所有問題都可以歸結為以下三個方面的數學知識:概率、距離、線性方程。

3.4.1 概率

基本概念:

概率描述的是隨機事件發生的可能性

比如,拋一枚硬幣,出現正反兩面的概率各為50%

基本計算:

設乙個黑箱中有8個黑球2個紅球,現隨機抽取乙個球,則

取到黑球的概率為:8/(8+2) =0.8

取到紅球的概率:2 /(8+2) =0.2

條件概率:

假如有兩個黑箱a/b,a中有7黑球+1紅球,b中有1黑球+1紅球,假如隨機抽取到乙個

為紅球,問,球來自a箱的概率——這就是條件概率問題

所求概率可表示為: p(a|紅球) 即在已知結果是紅球的條件下,是來自a的概率

條件概率的計算:

p(a|紅球) = p(a,紅球)/p(a)

《補充:具體運算過程》

3.4.2 距離(相似度)

在機器學習中,距離通常用來衡量兩個樣本之間的相似度,當然,在數學上,距離這個概念很豐滿,有很多具體的距離度量,最直白的是「歐氏距離」,即幾何上的直線距離

圖示:如圖,在二維平面上有兩個點(x1,y1) , (x2,y2),求兩點之間的距離

計算方法:

而在機器學習中,通常涉及的是多維空間中點的距離計算,計算方式一樣:

3.4.3 線性方程

機器學習中的線性擬合或回歸分類問題都需要理解線性方程

圖示:線性方程用來描述二維空間中的直線或多維空間中的平面,比如在二維空間中,如圖

y=ax+b即是圖中直線的線性方程:

如果在多維空間中,線性方程則是表示平面,方程形式如:ax+by+cz+d=0

計算方法:

初等數學經常已知a, b求解x y,而在高等數學中,我們往往是知道大量的(y,x)樣本比如(x1,y1),(x2,y2),(x3,y3)要求反推引數列表(a,b,…)。

在維度小,樣本資料都「正確+精確」的情況下,可以通過線性方程求解的方式來解出a,b,…

但在機器學習中,我們拿到的大量樣本資料本身都是「不精確且充滿噪點」的,所以代入方程來求解a,b…顯然不可行,此時,一般都是採用逼近的思想(機器學習中怎麼強調都不為過的乙個核心思想,甚至可以提公升為「逼近論」)來求解:

設定引數的初始值——>代入樣本試探——>根據試探結果調整引數——>再次代入樣本試探——>再調整引數

一直迴圈迭代直到獲得一組滿意的引數 《補充:乙個運算例項》

3.4.4 向量和矩陣

在以上3大數學問題中,都涉及到大量樣本資料大量特徵值的「批量運算」,此時,可運用數學中的工具:「向量和矩陣」

n維向量:就是乙個一維的陣列(x1,x2,x3,x4,…),陣列中的元素個數即為向量的「維度數」

矩陣:將多個(比如m個) n維向量寫在一起,就是矩陣(m*n):

x11,x12,x13,x14,..

...x21,x22,x23,x24,..

...x31,x32,x33,x34,..

...x41,x42,x43,x44,.....

矩陣和向量的意義主要在哪呢?就是為了方便快速地進行大量資料(尤其是線性方程問題)的批量運算。

如:矩陣相加

矩陣相乘

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...

資料探勘與機器學習入門

導論 機器學習演算法最適用的場景就是 不便用規則處理的場合 資料探勘 data mining 是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...

資料探勘與機器學習釋義

人工智慧是目前炙手可熱的領域,所有的網際網路公司以及各路大迦們紛紛表態人工智慧將是下乙個時代的革命性技術。資料探勘 data mining 和機器學習 machine learning 作為人工智慧研究與應用的分支領域,也越來越多的被提到。在大多數非計算機專業人士以及部分計算機專業背景人士眼中,機器...