離散化和概念分層產生
通過將屬性域劃分為區間,離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法,減少屬性值的數量特別有好處。通常,這種方法是遞迴的,大量的時間花在每一步的資料排序上。因此,待排序的不同值越少,這種方法就應當越快。許多離散化技術都可以使用,以便提供屬性值的分層或多維劃分——概念分層
對於給定的數值屬性,概念分層定義了該屬性的乙個離散化。通過收集並用較高層的概念(對
於年齡屬性,如
young, middle-age
和senior
)替換較低層的概念(如,年齡的數值值),概念分層可以用來歸約資料。通過這種泛化,儘管細節丟失了,但泛化後的資料更有意義、更容易解釋,並且所需的空間比原資料少。在歸約的資料上進行挖掘,與在大的、未泛化的資料上挖掘相比,所需的
i/o
操作更少,並且更有效
對於使用者或領域專家,人工地定義概念分層可能是一項令人乏味、耗時的任務。幸而,許多分層蘊涵在資料庫模式中,並且可以在模式定義級定義。概念分層常常自動地產生,或根據資料分布的統計分析動態地加以提煉。
數值屬性的概念分層可以根據資料分布分析自動地構造。五種數值概念分層產生方法:分
箱、直方圖分析、聚類分析、基於熵的離散化和通過「自然劃分」的資料分段。
分箱分箱方法。這些方法也是離散化形式。例如,通過將資料分布到箱中,並用箱中的平均值或中值替換箱中的每個值,可以將屬性值離散化。就象用箱的平均值或箱的中值平滑一樣。這些技術可以遞迴地作用於結果劃分,產生概念分層。
直方圖分析
直方圖分析演算法遞迴地用於每一部分,自動地產生多級概念分層,直到到達乙個預先設定的概念層數,過程終止。也可以對每一層使用最小區間長度來控制遞迴過程。最小區間長度設定每層每部分的最小寬度,或每層每部分中值的最少數目。
聚類分析
聚類演算法可以用來將資料劃分成聚類或群。每乙個聚類形成概念分層的乙個結點,而所有的結點在同一概念層。每乙個聚類可以進一步分成若干子聚類,形成較低的概念層。聚類也可以聚集在一起,以形成分層結構中較高的概念層
基於熵的離散化
一種基於資訊的度量稱作熵,可以用來遞迴地劃分數值屬性
a 的值,產生分層的離散化。這種離散化形成屬性的數值概念分層。給定乙個資料元組的集合
s,基於熵對
a 離散化的方法如下:
a 的每個值可以認為是乙個潛在的區間邊界或閾值
t。例如,
a 的值
v 可以將樣本
s 劃分成分別滿足條件
a < v 和
a ³v 的兩個子集,這樣就建立了乙個二元離散化。
給定s,所選擇的閾值是這樣的值,它使其後劃分得到的資訊增益最大。
其中,s1
和s2 分別對應於
s 中滿足條件
a < t 和
a ³t 的樣本。對於給定的集合,它的熵函式根據集合中樣本的類分布來計算
通過自然劃分分段
3-4-5規則可以用於將數值資料劃分成相對一致、「自然的」區間。一般地,該規則根據最重要的數字上的值區域,遞迴地、逐層地將給定的資料區域劃分為3、
4 或5 個等長的區間。該規則如下:
如果乙個區間在最重要的數字上包含3、
6、7 或
9 個不同的值,則將該區間劃分成
3 個區間(對於3、
6 和9,劃分成
3 個等寬的區間;而對於7,按
2-3-2
分組,劃分成
3 個區間);
如果它在最重要的數字上包含2、
4 或8 個不同的值,則將區間劃分成
4 個等寬的區間;
如果它在最重要的數字上包含1、
5 或10 個不同的值,則將區間劃分成
5 個等寬的區間。
該規則可以遞迴地用於每個區間,為給定的數值屬性建立概念分層。由於在資料集中可能有特別大的正值和負值,最高層分段簡單地按最小和最大值可能導致扭曲的結果。例如,在資產資料集中,少數人的資產可能比其他人高幾個數量級。按照最高資產值分段可能導致高度傾斜的分層。這樣,頂層分段可以根據代表給定資料大多數的資料區間(例如,第
5 個百分位數到第
95 個百分位數)進行。越出頂層分段的特別高和特別低的值將用類似的方法形成單獨的區間。
資料探勘之基礎概念
任務 根據其他屬性的值,特定屬性的值。通常資料探勘的任務 描述任務 匯出概括資料中潛聯絡的模式 四種主要的資料探勘任務 建模 關聯分析 聚類分析 異常檢測 建模 分類 用於 離散的目標變數 回歸 用於 連續的目標變數 關聯分析 用於發現描述資料中強關聯特徵的模式。異常檢測 識別器特徵顯著不同於其他資...
資料探勘之基礎概念二
模型的過擬合 分類模型的誤差大致分為兩張 訓練誤差 再代入誤差或表現誤差 泛化誤差 模型擬合不足 決策樹很小,訓練和檢驗誤差都很大 模型過分擬合 樹的模型變得太大,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,這種現象叫做過分擬合 奧卡姆剃刀 給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的...
資料探勘之導引 學習資料探勘演算法的元件化思想
extraction ofinteresting non trivial,implicit,previously unknown and potentially useful patterns or knowledge fromhuge amount of data.資料探勘就是從大量的資料中提取出...