資料探勘的功能總結

2021-06-20 13:49:18 字數 1158 閱讀 2241

總的來說,資料探勘任務可以分為兩類:描述性的和**性的。描述性的資料探勘任務是對目標資料集中資料的屬性進行特徵描述,而**性的挖掘任務是對當前資料進行歸納以進行**。

1,特徵描述和區分

特徵描述是對某類的資料的一般特徵或屬性的總結。特徵描述的結果可以以多種方式進行展現,例如餅狀圖,條形圖,曲線,多維資料立方體,多維表等。

資料區分是將某類的資料的一般特徵與另乙個或多個類別的資料的一般特徵進行比較。

2,挖掘頻繁模式和相關性

在一些商業交易中,有些商品會被同時購買,例如在超市裡,很多顧客在購買牛奶的同時,也會購買麵包,這樣的經常一起出現的事物就是一種頻繁項集。另外有些事物可能是相繼出現的,例如很多消費者先買了一台膝上型電腦,然後會買數碼相繼,再接著他們會買記憶體卡,這就是一種(頻繁)順序模式。對頻繁模式的挖掘有利於發現資料之中的一些有趣的關聯。

3,分類和回歸

分類是通過對一些已知類別標號的訓練資料進行分析,找到一種可以描述和區分資料類別或概念的模型,然後用這個模型來**未知類別標號的資料所屬的類別。這個分類模型的形式有多種,例如分類規則,決策樹,數學公式或者神經網路。此外還有樸素貝葉斯分類器,支援向量機和knn分類器等。

分類器處理的類別是離散而無序的,回歸則是具有連續取值的函式進行建模。回歸分析是一種統計方法,常用於數值**。

4,聚類分析

分類和回歸分析都有處理訓練資料的過程,訓練資料的類別標號已知。而聚類分析則是對未知類別標號的資料進行直接處理。在很多情況下,類別標號已知的訓練資料可能在最開始是無法獲得的。在聚類過程中,聚類的原則是使類內資料的相似性最大,而使類間資料的相似性最小。每乙個聚類可以看成是乙個類別,從中可以匯出分類的規則。

5,離群點分析

乙個資料集可能包含一些物件,它們與資料模型的總體行為不一致,這樣的物件就是利群點。很多資料探勘方法將離群點視為雜訊或例外而拋棄,然而在一些應用中例如謊言檢測,這些稀有的事件可能更應該引起關注。

離群點可以通過統計測試進行檢測,即假設資料集服從某乙個概率分布,看某個物件是否在該分布範圍之內。也可以使用距離測量,將那些與任何聚類都很遠的物件當做離群點。除此之外,基於密度的方法可以檢測區域性區域內的離群點。

6,是否所有的模式都值得關注?

乙個資料探勘系統可能產生成千上萬中模式或者規則,然而對乙個特定使用者來說,只有一小部分的模式是他感興趣的。

這裡有三個重要的問題,1,是什麼使得乙個模式令人關注?

2016資料探勘面試總結

避免資料傾斜 引數調節 hive.map.aggr true map 端部分聚合,相當於combiner hive.groupby.skewindata true 有資料傾斜的時候進行負載均衡,當選項設定為 true。生成的查詢計畫會有兩個 mr job。第乙個 mr job 中,map 的輸出結果...

資料探勘的知識點總結

資料探勘的步驟 需求 資料抓取 特徵選擇 模型選擇 驗證 應用 雖然步驟是靈活的,但是筆面試還是以這樣的過程為基準的 分析步驟 首先要做技術評估 1,資料抽取統計分析 對於資料特徵有乙個初步的把握 2,資料清洗 3,資料變換 4,歸併和分類 5,屬性選擇 6,模型構建 如果採用低有效的演算法,可以採...

資料探勘總結之牛人篇

以下是咱經常去的資料探勘牛人的 吸收了很多精華,也開闊了自己的思路。很感謝他們分享的思想,很是值得學習。韓家煒jian pei 資料探勘牛人,經常來中國講授資料探勘課程。個人主頁上有他發表的資料探勘相關 課程資訊,還有一些推薦書籍和源 mohammed j.zaki 資料探勘牛人,個人主頁裡面有很多...