1.通過屬性規約和屬性相關分析對資料進行預處理
2.對預處理後的屬性採用資訊增益方法構建決策樹
3.對決策樹表示的知識利用決策表的規則合併方法進行合併
4.最終得出人口變動規律:未婚的高學歷人口和未婚、低學歷的年輕人口有較高的流動率,老年人口流動率較低,其他人口流動率一般。
什麼是資料探勘?
資料探勘是從大量不完全,有雜訊,模糊,隨機的資料中提取隱含在其中的人們事先不知道的,但有用的資訊和知識的過程。
為什麼進行資料預處理?
由於人口資料中存在著許多與資料探勘任務不相關,冗餘的屬性,這些屬性可能會減慢資料探勘的程序,因此需要刪除。
進行屬性子集選擇,通過刪除不相關或冗餘的屬性來減少資料量。目的是為了找出最小屬性集,使得資料類的概率分布盡可能地接近使用所有屬性得到的原分布。
如何進行屬性子集選擇?
通常使用壓縮搜尋空間的啟發式演算法(貪心演算法)。策略是做區域性最優選擇,期望由此導致全域性最優解。
使用以下技術:
1.逐步向前選擇:由空屬性集作為歸約集開始,確定原屬性集中最好的屬性,將其新增到歸約集。然後進行迭代。
2.逐步向後刪除:該過程由整個屬性集開始。
3.逐步向前選擇和逐步向後刪除的組合
4.決策樹歸納
操作:①屬性消除:它基於以下規則進行:若乙個屬性(在初始資料集中)有許多不同數值,且(a)該屬性無法進行泛化操作(如:沒有定義相應的概念層次樹),或(b)它更高層次概念是用其它屬性描述的,這時該屬性就可以從資料集中消去.
②屬性泛化:它是基於以下規則進行:若乙個屬性(在初始資料集中)有許多不同數值,且該屬性存在一組泛化操作,則可以選擇乙個泛化操作對該屬性進行處理。
控制泛化過程的方法:
①屬性泛化閾值控制:該技術就是對所有屬性統一設定乙個泛化閾值,或每個屬性分別設定乙個閾值;若乙個屬性不同取值個數大於屬性泛化閾值,就需要對相應屬性作進一步的屬性消減或屬性泛化操作。資料探勘系統通常都有乙個預設屬性閾值(一般從2到8)
②泛化關係閾值控制:若乙個泛化關係中內容不相同的行數(元組數)大於泛化關係閾值,這就需要進一步進行相關屬性的泛化工作。否則就不需要作更進一步的泛化。通常資料探勘系統都預置這一閾值(一般為10到30)
這兩個技術可以序列使用,即首先應用屬性閾值控制來泛化每個屬性;然後再應用泛化關係閾值控制來進一步減少泛化關係的(規模)大小。
根據已有屬性集構造新的屬性,以幫助資料探勘過程。
構造屬性:變動狀態。
確定了目標變數後,需要進行關聯度分析,刪除那些與目標變數變動狀態無關的變數。最終確定可用於資料探勘的屬性。
選擇具有最高資訊增益的屬性作為當前節點的判斷屬性。
資料探勘的最終目標是知識發現,因此需要對上面的決策樹進行規則提取,清晰地表達出新的知識。將決策樹轉換成相應的決策表。並且可以進一步優化。
根據優化後的決策表得到結論。
2017-10-14
基於WEB 的資料探勘綜述
1 什麼是基於web 的資料探勘 當前網路發展迅速,各種 比比皆是。但在競爭日益激烈的網路經濟中,只有贏得使用者,才能最終贏得競爭的優勢。作為乙個 的管理員或擁有者,應該知道用 戶都在他的 上幹什麼,知道 哪些部分最為使用者喜愛,哪些讓使用者感到厭煩,什麼地方出了安全漏洞,什麼樣的改動帶來了顯著的使...
基於WEB的資料探勘綜述
周 競揚 mg0133041 南京大學電腦科學與技術系分布式與並行系統實驗室 江蘇 南京 210093 摘 要 基於web 的資料探勘是當前相當熱門的方向之一,本文對此作了乙個比較全面的綜述。概括了基於web 的資料探勘的主要概念和特點,說明各類web 挖掘尤其是基於web 使用的挖掘所常用的技術,...
基於R的資料探勘的包
聚類 常用的包 fpc,cluster,pvclust,mclust 基於劃分的方法 kmeans,pam,pamk,clara 基於層次的方法 hclust,pvclust,agnes,diana 基於模型的方法 mclust 基於密度的方法 dbscan 基於畫圖的方法 plotcluster,...