1.
為什麼資料探勘是重要的?
主要是由於存在可以廣泛使用的大量資料,並且迫切需要將這些資料轉換成有用的資訊和知識,以將其廣泛用於市場分析、欺詐檢測、顧客保有、產品控制和科學探索等。
2.資料探勘系統的一般結構
知識發現過程由以下步驟組成:
(1)資料清理——消除雜訊和不一致資料;
(2)資料整合——可將多重資料來源組合在一起;
(3)資料選擇——從
db中提取與分析任務相關的資料;
(4)資料變換——將資料變換或統一成適合挖掘的形式,如通過彙總或聚集操作
(5)資料探勘——使用智慧型方法提取資料模式;
(6)模式評估——根據某種興趣度量,識別表示知識的真正有趣的模式;
(7)知識表示——使用視覺化和知識表示技術,向使用者提供挖掘的知識。
可見,可將資料探勘看作是知識發現過程的乙個步驟。典型的資料探勘系統具有以下主要成分:
3.如何定義資料探勘
根據資料探勘功能的廣義觀點:資料探勘是從存放在資料庫、資料倉儲或其他資訊庫中的大量資料中發現有趣的知識。
4.對何種資料進行挖掘
包括關聯式資料庫、資料倉儲、事務資料庫、高階資料庫系統、一般檔案、資料流和全球資訊網。其中高階資料庫系統包括物件-關聯式資料庫和面向特殊應用的資料庫如:空間資料庫、時間序列資料庫、文字資料庫和多**資料庫。
5.可以挖掘什麼型別的模式
由於有些模式並非對資料庫中的所有資料都成立,通常每個被發現的模式都附上乙個確定性或「可信性」度量。資料探勘功能以及她們可以發現的模式型別如下:
(1)概念
/類模式:特徵化和區分
資料特徵化(
data characterization)是目標類資料的一般特性或特徵的彙總。資料特徵的輸出可以用多種形式,包括餅圖、條圖、曲線、多維資料立方體和包括交叉表在內的多維表。結果的描述也可以用廣義關係(
generalized relation
)或規則形式提供。
資料區分(
data discrimination)是將目標資料物件的一般特性與乙個或多個對比類物件的一般特性進行比較。結果輸出的形式類似於特徵化描述,但區分描述應包括比較度量,以幫助區別目標類和對比類。
(2)挖掘頻繁模式、關聯和相關
頻繁模式是在資料幀頻繁出現的模式,有多種型別,包括項集、子串行和子結構。
(3)分類和**
分類的過程:找出描述和區分資料類或概念的模型(或函式),以便能夠利用這些模型**類標號未知的物件類。匯出模型是基於對訓練資料集的分析,可用多種形式表示,如分類規則(
if-then
)、決策樹、數學公式和神經網路。
分類**分類的標號,**建立連續值函式模型。
相關分析(
relevance analysis)可能需要在分類和**之前進行,它試圖識別對於分類或**過程無用的屬性。
(4)聚類分析
(5)離群點分析
資料庫中可能包含一些稱為離群點(outlier)的資料物件,它們與資料的一般行為或模型不一致。
(6)演變分析
資料演變分析(evolution analysis)描述行為隨時間變化的物件的規律或趨勢,並對其建模。 6.
什麼樣的模式提供有用的知識?
存在一些模式興趣度的客觀度量,如規則的支援度、置信度。定義如下:
support(x=>y) = p(xuy)
confidence(x=>y) = p(y|x)
但僅有客觀度量是不夠的,還要結合反映特定使用者需要和興趣的主觀度量。如果模式是出乎意料的(與使用者的信念相矛盾),或者提供使用者可以採取行動的策略資訊,那麼它是有趣的;意料中的模式也可能是有趣的,如果它們證實了使用者希望驗證的假設,或與使用者的預感相似。
為了有效地發現對於特定使用者有價值的模式,模式興趣度是不可或缺的。
資料探勘學習基礎知識
資料探勘的學習,我是參考了 資料探勘概念與技術 韓家煒老師的書籍學習 第一部分 認識資料 1.1 屬性 屬性是乙個資料字段,便是資料物件的乙個特徵。分類一 標稱屬性 值是符號或事物的名稱。ex,hair color,customer id。對其算數運算無 意義。二元屬性 一種標稱屬性。只有兩個狀態o...
資料探勘引入 基礎知識
全球每天都在產生數以兆兆的資料,每個人的行為都會產生資料 資料的 式增長並且廣泛可用讓我們真正進入資料時代。普通人面對這資料海洋就是束手無策 一臉懵逼 我是誰?我從哪兒來?我要去哪兒?但是在這資料海洋中有著無與倫比的財富等待著我們去發現。資料探勘 資料探勘是指從大量的資料中通過演算法搜尋隱藏於其中資...
資料探勘 基礎知識 彙總筆記1
分類 有監督 聚類 無監督 1.k means 連續型,數值型資料,使用歐式距離 余弦距離 大哥 小弟 的例子,無監督學習演算法 形心均值是相加再除即可 對異常值敏感 k medoids 形心均值改為中心點,在每個聚簇中按照順序依次選取點,計算該點到當前聚簇中所有點距離之和,最終距離之和最小的點,則...