資料探勘常用的方法
利用資料探勘進行資料分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特徵、變化和偏差分析、web頁挖掘等, 它們分別從不同的角度對資料進行挖掘。
①分類。
分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢**等,如乙個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。
②回歸分析。
回歸分析方法反映的是事務資料庫中屬性值在時間上的特徵,產生乙個將資料項對映到乙個實值**變數的函式,發現變數或屬性間的依賴關係,其主要研究問題包括資料序列的趨勢特徵、資料序列的**以及資料間的相關關係等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢**及有針對性的**活動等。
③聚類。
聚類分析是把一組資料按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的資料間的相似性盡可能大,不同類別中的資料間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢**、市場的細分等。
④關聯規則。
例子:購買麵包的顧客中有90%的人同時購買了牛奶。
關聯規則是描述資料庫中資料項之間所存在的關係的規則,即根據乙個事務中某些項的出現可匯出另一些項在同一事務中也出現,即隱藏在資料間的關聯或相互關係。在客戶關係管理中,通過對企業的客戶資料庫裡的大量資料進行挖掘,可以從大量的記錄中發現有趣的關聯關係,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定製客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙**等決策支援提供參考依據。
⑤特徵。
特徵分析是從資料庫中的一組資料中提取出關於這些資料的特徵式,這些特徵式表達了該資料集的總體特徵。如營銷人員通過對客戶流失因素的特徵提取,可以得到導致客戶流失的一系列原因和主要特徵,利用這些特徵可以有效地預防客戶的流失。
⑥變化和偏差分析。
偏差包括很大一類潛在有趣的知識,如分類中的反常例項,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常資訊的發現、分析、識別、評價和預警等方面。
⑦web頁挖掘。
隨著internet的迅速發展及web 的全球普及, 使得web上的資訊量無比豐富,通過對web的挖掘,可以利用web 的海量資料進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求資訊、客戶等有關的資訊,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境資訊和內部經營資訊,並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些資訊進行分析和處理,以便識別、分析、評價和管理危機。
資料探勘的功能
資料探勘通過**未來趨勢及行為,做出前攝的、基於知識的決策。資料探勘的目標是從資料庫中發現隱含的、有意義的知識,主要有以下五類功能。
1、自動**趨勢和行為,**型知識(prediction)
資料探勘自動在大型資料庫中尋找**性資訊,以往需要進行大量手工分析的問題如今可以迅速直接由資料本身得出結論。乙個典型的例子是市場**問題,資料探勘使用過去有關**的資料來尋找未來投資中回報最大的使用者,其它可**的問題包括預報破產以及認定對指定事件最可能作出反應的群體。
2、關聯分析,關聯知識(association)
資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中資料的關聯函式,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3、聚類,分類知識(classification & clustering)
資料庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。
4、概念描述
概念描述就是對某類物件的內涵進行描述,並概括這類物件的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類物件的共同特徵,後者描述不同類物件之間的區別。生成乙個類的特徵性描述只涉及該類物件中所有物件的共性。生成區別性描述的方法很多,如決策樹方法、遺傳演算法等。
5、偏差檢測,偏差型知識(deviation)
資料庫中的資料常有一些異常記錄,從資料庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常例項、不滿足規則的特例、觀測結果與模型**值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
資料探勘常用技術
1、人工神經網路
神經網路近來越來越受到人們的關注,因為它為解決大複雜度問題提供了一種相對來說比較有效的簡單方法。神經網路可以很容易的解決具有上百個引數的問題。神經網路常用於兩類問題:分類和回歸。
在結構上,可以把乙個神經網路劃分為輸入層、輸出層和隱含層(見圖4)。輸入層的每個節點對應乙個個的**變數。
除了輸入層的節點,神經網路的每個節點都與很多它前面的節點(稱為此節點的輸入節點)連線在一起,每個連線對應乙個權重wxy,此節點的值就是通過它所有輸入節點的值與對應連線權重乘積的和作為乙個函式的輸入而得到,我們把這個函式稱為活動函式或擠壓函式。
2、決策樹
決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,圖7是為了解決這個問題而建立的一棵決策樹,從中我們可以看到決策樹的基本組成部分:決策節點、分支和葉子。
3、遺傳演算法
基於進化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。
4、近鄰演算法
將資料集合中每乙個記錄進行分類的方法。
5、規則推導
從統計意義上對資料中的「如果-那麼」規則進行尋找和推導。
乙個經常問的問題是,資料探勘和olap到底有何不同。下面將會解釋,他們是完全不同的工具,基於的技術也大相徑庭。
也就是說,olap分析師是建立一系列的假設,然後通過olap來證實或推翻這些假設來最終得到自己的結論。olap分析過程在本質上是乙個演繹推理的過程。但是如果分析的變數達到幾十或上百個,那麼再用olap手動分析驗證這些假設將是一件非常困難和痛苦的事情。
資料探勘與olap不同的地方是,資料探勘不是用於驗證某個假定的模式(模型)的正確性,而是在資料庫中自己尋找模型。他在本質上是乙個歸納的過程。比如,乙個用資料探勘工具的分析師想找到引起貸款拖欠的風險因素。資料探勘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發現一些分析師從來沒有想過或試過的其他因素,比如年齡。
資料探勘和olap具有一定的互補性。在利用資料探勘出來的結論採取行動之前,你也許要驗證一下如果採取這樣的行動會給公司帶來什麼樣的影響,那麼olap工具能回答你的這些問題。
而且在知識發現的早期階段,olap工具還有其他一些用途。可以幫你探索資料,找到哪些是對乙個問題比較重要的變數,發現異常資料和互相影響的變數。這都能幫你更好的理解你的資料,加快知識發現的過程。
需考慮問題
具體地說,應考慮以下八個問題:
1. 超大規模資料庫和高維資料問題;
2. 資料丟失問題;
3. 變化的資料和知識問題;
4. 模式的易懂性問題;
5. 非標準格式的資料、多**資料、物件導向資料處理問題;
6. 與其他系統的整合問題;
7. 網路與分布式環境下的kdd問題。
8. 個人隱私問題
資料[1]資料探勘
[2][3]
[4]
資料探勘筆記(二)
資料探勘常用的方法 利用資料探勘進行資料分析常用的方法主要有分類 回歸分析 聚類 關聯規則 特徵 變化和偏差分析 web頁挖掘等,它們分別從不同的角度對資料進行挖掘。分類。分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定...
資料探勘學習筆記(二)
1 認識資料 1.1 資料物件和屬性型別 資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。1.1.1 什麼是屬性 屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量 或特徵向量 ...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...