資料分類分析

2021-10-22 13:49:54 字數 2045 閱讀 7927

一、決策樹演算法

首先,顧名思義,決策樹是基於樹結構來進行決策的。樹可以表達類和屬性的關係。

1.決策樹的基本組成部分:決策結點、分支和葉子。

2.如何選擇葉子結點——選擇最佳劃分(屬性)的度量

選擇最佳劃分的度量通常是根據劃分後子結點不純性的度量。不純的程度越低,類分布就越傾斜。

3.採用熵來說明劃分後子結點不純性的度量,如下:

e nt

ropy

(t)=

−∑i=

0c−1

(p(i

∣t)l

og2p

(i∣t

))entropy(t)=-\sum_^(p(i|t)log_p(i|t))

entrop

y(t)

=−∑i

=0c−

1​(p

(i∣t

)log

2​p(

i∣t)

)熵的通俗理解就是混亂程度、不確定性程度。乙個系統的混亂程度越高(不純度越高)它的熵就越高。熵可以表達樣本集合不純度,熵越小,集合不純度就越低。

例子:

左邊的表示:不純度高(純度低),即熵越大(每個出現的次數都很多),即不確定性大(確定性小);

右邊的表示:不純度低(純度高),即熵越小,即不確定性小(確定性大)。

4.資訊增益

為確定測試條件的效果,需要比較父節點(劃分前)的不純性程度和子女結點(劃分後)的不純性程度,他們的差越大,測試條件的效果就越好。資訊增益δ

\delta

δ(或者用gain表示)是一種用來確定劃分效果的標準(其中,i()

i()i(

)是給定結點的不純性度量,n

nn)是父節點上的記錄總數,k

kk是屬性值的個數,n(v

i)n(v_)

n(vi​)

是與子女結點viv_

vi​ =i

(par

ent)

−∑j=

1kn(

vj)n

i(vj

)\delta=i(parent)-\sum_^\frac)}i(v_)

δ=i(pa

rent

)−∑j

=1k​

nn(v

j​)​

i(vj

​)5.id3演算法

(1) 試探性地選擇乙個屬性放置在根節點, 並對該屬性的每個值產生乙個分支.

• (2) **根節點上的資料集, 並移到子女節點, 產生一棵區域性樹.

• (3) 對該劃分的資訊增益進行計算.

• (4) 對其他屬性重複該過程.

• (5) 每個用於劃分的屬性產生一棵區域性樹.

• (6) 根據區域性樹的資訊增益值, 選擇一棵增益最大的屬性的區域性樹.

• (7) 對選定的區域性樹的每個子女節點重複以上1-6步.

• (8) 這是乙個遞迴過程. 如果乙個節點上的所有例項都具有相同的類, 則停止區域性樹的生長.

例子:

資料分析分類

按照資料分析的實時性,可分為實時資料分析和離線分析兩種。實時分析,一般用於金融 移動和網際網路b2c等產品,往往要求在數秒內返回上億行資料的分析,從而達到不影響使用者體驗的目的。實時分析工具有emc的greenplum,sap的hana等。對大多數反饋時間要求不那麼嚴苛的應用,可以採用離線分析的方式...

資料分析方向分類

一 面向工具 1.1 資料分析與sas sas時間序列分析 1.2 資料分析 展現與r語言 1.2.1 r其中 之金融資料分析quantmod 1.2.2 r七種 之資料視覺化包ggplot2 1.2.3 r七種 之生命資料分析bloconductor 1.3 資料分析與spss 1.4 快速資料探...

資料的回歸與分類分析

任務要求 線性回歸練習。父親高則兒子高,父親矮則兒子矮 即父親與兒子身高相關,且為正相關 母高高一窩,父高高乙個 即母親的身高比父親的身高對子女的影響更大 的習俗傳說是否成立?請在 父母子女身高 資料集 高爾頓資料集 基礎上利用線性回歸做出科學分析。1 選取父子身高資料為x y,用excel計算線性...