資料探勘之離散化和概念分層學習筆記

離散化和概念分層產生

通過將屬性域劃分為區間，離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法，減少屬性值的數量特別有好處。通常，這種方法是遞迴的，大量的時間花在每一步的資料排序上。因此，待排序的不同值越少，這種方法就應當越快。許多離散化技術都可以使用，以便提供屬性值的分層或多維劃分——概念分層

對於給定的數值屬性，概念分層定義了該屬性的乙個離散化。通過收集並用較高層的概念（對

於年齡屬性，如

young, middle-age

和senior

）替換較低層的概念（如，年齡的數值值），概念分層可以用來歸約資料。通過這種泛化，儘管細節丟失了，但泛化後的資料更有意義、更容易解釋，並且所需的空間比原資料少。在歸約的資料上進行挖掘，與在大的、未泛化的資料上挖掘相比，所需的

i/o

操作更少，並且更有效

對於使用者或領域專家，人工地定義概念分層可能是一項令人乏味、耗時的任務。幸而，許多分層蘊涵在資料庫模式中，並且可以在模式定義級定義。概念分層常常自動地產生，或根據資料分布的統計分析動態地加以提煉。

數值屬性的概念分層可以根據資料分布分析自動地構造。五種數值概念分層產生方法：分

箱、直方圖分析、聚類分析、基於熵的離散化和通過「自然劃分」的資料分段。

分箱分箱方法。這些方法也是離散化形式。例如，通過將資料分布到箱中，並用箱中的平均值或中值替換箱中的每個值，可以將屬性值離散化。就象用箱的平均值或箱的中值平滑一樣。這些技術可以遞迴地作用於結果劃分，產生概念分層。

直方圖分析

直方圖分析演算法遞迴地用於每一部分，自動地產生多級概念分層，直到到達乙個預先設定的概念層數，過程終止。也可以對每一層使用最小區間長度來控制遞迴過程。最小區間長度設定每層每部分的最小寬度，或每層每部分中值的最少數目。

聚類分析

聚類演算法可以用來將資料劃分成聚類或群。每乙個聚類形成概念分層的乙個結點，而所有的結點在同一概念層。每乙個聚類可以進一步分成若干子聚類，形成較低的概念層。聚類也可以聚集在一起，以形成分層結構中較高的概念層

基於熵的離散化

一種基於資訊的度量稱作熵，可以用來遞迴地劃分數值屬性

a 的值，產生分層的離散化。這種離散化形成屬性的數值概念分層。給定乙個資料元組的集合

s，基於熵對

a 離散化的方法如下：

a 的每個值可以認為是乙個潛在的區間邊界或閾值

t。例如，

a 的值

v 可以將樣本

s 劃分成分別滿足條件

a < v 和

a ³v 的兩個子集，這樣就建立了乙個二元離散化。

給定s，所選擇的閾值是這樣的值，它使其後劃分得到的資訊增益最大。

其中，s1

和s2 分別對應於

s 中滿足條件

a < t 和

a ³t 的樣本。對於給定的集合，它的熵函式根據集合中樣本的類分布來計算

通過自然劃分分段

3-4-5規則可以用於將數值資料劃分成相對一致、「自然的」區間。一般地，該規則根據最重要的數字上的值區域，遞迴地、逐層地將給定的資料區域劃分為3、

4 或5 個等長的區間。該規則如下：

如果乙個區間在最重要的數字上包含3、

6、7 或

9 個不同的值，則將該區間劃分成

3 個區間（對於3、

6 和9，劃分成

3 個等寬的區間；而對於7，按

2-3-2

分組，劃分成

3 個區間）；

如果它在最重要的數字上包含2、

4 或8 個不同的值，則將區間劃分成

4 個等寬的區間；

如果它在最重要的數字上包含1、

5 或10 個不同的值，則將區間劃分成

5 個等寬的區間。

該規則可以遞迴地用於每個區間，為給定的數值屬性建立概念分層。由於在資料集中可能有特別大的正值和負值，最高層分段簡單地按最小和最大值可能導致扭曲的結果。例如，在資產資料集中，少數人的資產可能比其他人高幾個數量級。按照最高資產值分段可能導致高度傾斜的分層。這樣，頂層分段可以根據代表給定資料大多數的資料區間（例如，第

5 個百分位數到第

95 個百分位數）進行。越出頂層分段的特別高和特別低的值將用類似的方法形成單獨的區間。

資料探勘之離散化和概念分層學習筆記

資料探勘之基礎概念

資料探勘之基礎概念二

資料探勘之導引學習資料探勘演算法的元件化思想

資料探勘之離散化和概念分層學習筆記

資料探勘之基礎概念

資料探勘之基礎概念二

資料探勘之導引 學習資料探勘演算法的元件化思想

相關推薦

資料探勘之導引學習資料探勘演算法的元件化思想