目錄
1.簡述資料探勘概念。
2.根據**方法的性質將**方法分為哪些類?各有何優缺點?
3.時序**方面典型的演算法有哪些?各有什麼特點?
4.根據研究的方式分類,可將時間序列**與挖掘分為哪些類?
5.什麼是序貫模式挖掘spmgc演算法?
6.資料探勘的常用演算法有哪幾類?有哪些主要演算法?
7.資料探勘方法中分類的含義?分類與聚類方法的區別?
8.時間序列**方法分哪幾類?主要適用領域是哪些?
9.按照資料探勘的應用場景分類,資料探勘的應用主要涉及哪些領域?
10.根據適用的範圍,資料探勘工具分為哪些類?
11.資料探勘中的挖掘工具有哪些?各有什麼特點?
12.資料探勘spss軟體的適用場合與特點有哪些?
從科學定義上分析,資料探勘是從大量的、有雜訊的、不完全的、模糊和隨機的資料中,提取出隱含在其中的、人們事前不知道的、具有潛在利用價值的資訊和知識的過程。
從技術角度分析。資料探勘就是利用一系列的相關演算法和技術,從大資料中提取行業或公司所需要的、有實際應用價值的知識的過程。
資料探勘是整個知識發現流程中的乙個具體步驟,也是知識發現過程中最重要的核心步驟。
(1)定性**方法,對系統過去與現在的經驗、判斷和直覺進行**,以人的邏輯判斷為主,要求提供系統發展的方向、狀態、形式等定性結果,該方法適用於缺乏歷史統計資料的系統。
(2)時間序列**,根據系統物件隨時間變化的歷史資料,考慮系統變數隨時間的變化規律,對系統未來的表現時間進行定量**,主要包括移動平均法、指數平滑法、趨勢平推法等,適用於利用統計資料**研究物件隨時間變化的趨勢。
(3)因果關係**,系統變數之間存在某種前因後果關係,找出影響某種結果的因素,建立因與果之間的數學模型,根據因素變數的變化**結果變數的變化,既**系統發展的方向又確定具體的數值變化規律。
序貫模式挖掘spmgc演算法,spmgc演算法可以有效地發現有價值的資料序列模式,提供給大資料專家進行各類時間序列的相似性與**研究。
(1)將時間序列資料作為一種特殊的資料探勘物件,找尋對應的資料探勘演算法進行研究。
(2)從時間序列資料中提取並組建特徵,仍用原有的資料探勘框架和演算法進行資料探勘。
序貫模式挖掘spmgc演算法是基於時間視窗、時間因素、挖掘結果等約束條件組成的廣義約束條件給出的演算法。spmgc演算法首先對約束條件按照優先順序進行排序,然後根據約束條件產生候選序列,spmgc演算法說明了怎樣使用約束條件來挖掘序貫模式。
(1)分類。在給定資料基礎上構建分類函式或分類模型,該函式或模型能夠把資料歸類為給定類別中的某一類別。主要演算法:貝葉斯決策與分類器、svm演算法、
(2)聚類。聚類也就是將抽象物件的集合分為相似物件組成的多個類的過程,聚類過程生成的簇稱為一組資料物件的集合。主要演算法:層次聚類演算法、劃分聚類演算法、基於密度的聚類演算法、基於網格的聚類演算法、基於模型的聚類演算法。
(3)關聯規則。關聯規則就是支援度和信任度分別滿足使用者給定閾值的規則。主要演算法:apriori演算法、fp-growth演算法
(4)時間序列**。一種歷史引申**法,也即將時間數列所反映的時間發展過程進行引申外推,**發展趨勢的一種方法。主要演算法:spmgc演算法
分類是一種重要的資料分析方式,根據重要資料類的特徵向量值及其他約束條件,構造分類函式或分類模型,目的是根據資料集的特點把未知類別的樣本對映到給定類別中。
聚類就是將具體或抽象物件的集合分組由相似物件組成的為多個類或簇的過程。由聚類生成的簇是一組資料物件的集合,簇必須滿足:每個簇至少包含乙個資料物件,每個資料物件必須屬於且唯一的屬於乙個簇。
分類屬於有監督學習,聚類屬於無監督學習。
常用的時間序列**方法有簡單移動平均法、加權移動平均法、指數平滑法和季節因素調整法等。
1)簡單移動平均法適用於主要存在隨機變動的時間序列。
2)加權移動平均法適用於存在多種變動因素的場合。
3)指數平滑法的作用與加權移動平均法相似,它是通過調整平滑係數來起到反映時間序列特點的作用。
4)季節因素調整法適用於存在很強的季節變動的時間序列。
(1)資料探勘在電信行業的應用。
(2)資料探勘在商業銀行中的應用。
(3)資料探勘在資訊保安中的應用。
(4)資料探勘在科學探索中的應用。
(1)專用挖掘工具。針對某個特定領域的問題提供解決方案在涉及演算法的時候充分考慮資料、需求的特殊性。
(2)通用挖掘工具。通用挖掘工具可以做多種模式的挖掘,至於挖掘的內容與挖掘工具都可以由使用者自己來選擇。
(1)weka軟體。公開的資料探勘平台,整合大量能承擔資料探勘任務的機器學習演算法,包括對資料進行預處理、分類、回歸、聚類、關聯規則,以及互動式介面上視覺化。
(2)spss軟體。spss採用類似於excel**的方式輸入與管理資料,資料介面較為通用,能方便地從其他資料庫中讀入資料,突出特點是操作介面友好,且輸入結果美觀。
(3)clementine軟體。clementine提供出色、廣泛的資料探勘技術,確保用恰當的分析技術來處理相應的商業問題,得到最優結果以應對隨時出現的問題。
(4)rapidminer軟體。rapidminer並不支援分析流程圖方式,當包含的運算子比較多時就不容易檢視,具有豐富的資料探勘分析和演算法功能,常用於解決各種商業關鍵問題。
(5)其他資料探勘軟體。流行的資料探勘軟體還包括orange、knime與tanagra等,各有特點以滿足不同需求。
spss軟體特點:操作介面友好,且輸出結果美觀。
資料探勘演算法
apriori演算法學習資料的關聯規則 association rules 適用於包含大量事務 transcation 的資料庫。關聯規則學習是學習資料庫中不同變數中的相互關係的一種資料探勘技術。你可能會對 apriori 演算法如何工作有疑問,在進入演算法本質和細節之前,得先明確3件事情 第一是你...
資料探勘演算法
include include define d 9 d數事務的個數 define minsupcount 2 最小事務支援度數 void main char b 20 d 100 t,b2 100 10 b21 100 10 int i,j,k,x 0,flag 1,c 20 x1 0,i1 0,...
資料探勘演算法 K means演算法
k means中文稱為k均值聚類演算法,在1967年就被提出 所謂聚類就是將物理或者抽象物件的集合分組成為由類似的物件組成的多個簇的過程 聚類生成的組成為簇 簇內部任意兩個物件之間具有較高的相似度,不同簇的兩個物件之間具有較高的相異度 相異度和相似度可以根據描述的物件的屬性值來計算 物件間的距離是最...