資料探勘技能的分類和資料探勘的常用方法的剖析

2021-09-10 13:31:53 字數 2032 閱讀 6113

21世紀是資料資訊大發展的時代,移動互聯、社交網路、電子商務等都極大拓展了其應用範圍,各種資料迅速擴張變大。大資料蘊藏著價值資訊,但如何從海量資料中淘換出出對客戶有用的沙金甚至鑽石,是資料人面臨的巨大挑戰。

本文在分析大資料基本特徵的基礎上,對資料探勘技能的分類及資料探勘的常用方法進行了大略分析,以期可以在大資料時代背景下可以在資料探勘方向取得些許成績。

1 大資料時代資料探勘的重要性

隨著網際網路、物聯網、雲計算等技能的快速發展,以及智慧型終端、網路社會、數字地球等資訊體的普及和建設,全球資料量出現**式增長,僅在2023年就達到1.8萬億gb。idc(internet data center,網際網路絡資料中心)預計,到2020 年全球資料量將增加50倍。毋庸置疑,大資料時代已經到來。一方面,雲計算為這些海量的、多樣化的資料提供儲存和運算平台,同時資料探勘和人工智慧從大資料中發現知識、規律和趨勢,為決策提供資訊參考。

如果運用合理的方法和工具,在企業日積月累變成的浩瀚資料中,是能夠淘到沙金的,甚至可能發現許多大的鑽石。在一些資訊化較成熟的行業,就有這樣的例子。比如銀行的資訊化建設就相當完善,銀行每天生成的資料數以萬計,儲戶的訪問款資料、atm交易資料等。

資料探勘是借助it手段對經營決策產生決定性影響的一種管理手段。從定義上來看,資料探勘是指乙個完整的過程,該過程是從大量、不完全、模糊和隨機的資料集中識別有效的、可實用的資訊,並運用這些資訊做出決策。

2 資料探勘的分類

資料探勘技能從起初的單一門類的知識逐步發展成為一門綜合性的多學科知識,並由此產生了很多的資料探勘方法,這些方法種類多,型別也有很大的差別。為了滿足使用者的實際需要,現對資料探勘技能進行如下幾種分類:

2.1 按挖掘的資料庫型別分類

利用資料庫對資料分類成為可能是因為資料庫在對資料儲存時就能夠對資料按照其型別、模型以及應用場景的不同來進行分類,根據這種分類得到的資料在選取資料探勘技能時也會有滿足自身的方法。對資料的分類有兩種情況,一種是根據其模型來分類,另一種是根據其型別來分類,前者包括關係型、物件-關係型以及工作型和資料倉儲型等,後者包括時間型、空間型和web 型的資料探勘方法。

2.2 按挖掘的知識型別分類

這種分類方法是根據資料探勘的功能來實施的,其中包括多種分析的方式,例如相關性、**及離群點分析方法,充分的資料探勘不但僅是一種單一的功能模式,而是各種不同功能的聚集。同時,在上述分類的情況下,還能夠按照資料本身的特性和屬性來對其進行分類,例如資料的抽象性和資料的粒度等,利用資料的抽象層次來分類時能夠將資料分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。乙個完善的資料探勘能夠實現對多個抽象層資料的挖掘,找到其有價值的知識。同時,在對資料探勘進行分類時還能夠根據其表現出來的模式及準則性和是否檢測出雜訊來分類,一般來說,資料的準則性能夠通過多種不同的方法挖掘,例如相關性和關聯分析以及通過對其觀念描述和聚類分類、**等方法,同時還能夠通過這些挖掘方法來檢測和排除雜訊。

2.3 按所用的技能型別分類

資料探勘的時候選取的技能手段千變萬化,例如能夠選取面向資料庫和資料倉儲的技能以及神經網路及其視覺化等技能手段,同時使用者在對資料進行分析時也會使用很多不同的分析方法,根據這些分析方法的不同能夠分為遺傳演算法、人工神經網路等等。一般情況下,乙個龐大的資料探勘系統是集多種挖掘技能和方法的綜合性系統。

2.4 按應用分類

3 資料探勘中常用的方法

目前資料探勘方法主要有4種,這四種演算法包括遺傳、決策樹、粗糙集和神經網路演算法。以下對這四種演算法進行一一解釋說明。

決策樹演算法:在對模型的**中,該演算法具有很強的優勢,利用該演算法對龐大的資料資訊進行分類,從而對有潛在價值的資訊進行定位,這種演算法的優勢也對照明顯,在利用這種演算法對資料進行分類時相當迅速,同時描述起來也很簡明,在大規模資料處理時,這種方法的應用性很強。

粗糙集演算法:這個演算法將知識的理解視為對資料的劃分,將這種劃分的乙個總體叫做觀念,這種演算法的基本原理是將不夠精確的知識與確定的或者正確的知識進行類別同時進行類別刻畫。

資料探勘演算法的分類

演算法是資料探勘模型建立的核心,由於資料探勘是乙個交叉學科,因此其演算法也集大成於一身,豐富多彩。可根據演算法分析資料的方式 演算法來自的學科 演算法所得結果的型別 學習過程的型別等,對資料探勘的演算法進行分類。一方面,資料探勘能夠通過olap分析和統計分析,實現對資料的多維度彙總,驗證人們實現對資...

資料探勘之分類

分類的定義 通過學習得到目標函式f 也叫 分類模型 把每個屬性集x對映到乙個預先定義好的類稱號y。相關定義 訓練集 屬性 類標號 模型 測試集 分類與聚類的區別 聚類 無指導的學習,事先沒有標籤,而通過某種成因分析找出事物之間存在聚集性原因的過程。面對一堆資料,將這堆資料分成幾類 分類 有指導的學習...

資料探勘之分類

分類是構造乙個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本對映到預先定義好的類別。分類的演算法分為以下兩步 1 學習步,通過歸納分析訓練樣本集,來建立分類模型,得到分類規則 2 分類步,先用已知的測試樣本集評估分類規則的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的待測樣本集進...