資料探勘筆記1

2021-08-31 15:05:29 字數 1114 閱讀 2780

資料可以與類或概念相關聯。

例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的、簡潔的、精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類/概念描述。這種描述可以通過下述方法得到

(1)資料特徵化,一般地彙總所研究類(通常稱為目標類)的資料,或

(2)資料區分,將目標類與乙個或多個比較類(通常稱為對比類)進行比較,或

(3)資料特徵化和比較。資料特徵是目標類資料的一般特徵或特性的彙總。

通常,使用者指定類的資料通過資料庫查詢收集。例如,為研究上一年銷售增加10%的軟體產品的特徵,可以通過執行乙個sql 查詢收集關於這些產品的資料。有許多有效的方法,將資料特徵化和總。例如,基於資料方的 olap 上捲操作(1.3.2 小節)可以用來執行使用者控制的、沿著指定維的資料彙總。該過程將在第2 章介紹資料倉儲時進一步詳細討論。面向屬性的歸納技術可以用來進行資料的泛化和特徵化,而不必一步步地與使用者互動。這一技術將在第5 章討論。資料特徵的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維資料方和包括交叉表在內的多維表

「什麼是關聯分析?」關聯分析發現關聯規則,這些規則展示屬性-值頻繁地在給定資料集中一起出現的條件。關聯分析廣泛用於購物籃或事務資料分析。

分類是這樣的過程,它找描述或識別資料類或概念的模型(或函式),以便能夠使用模型**類標號未知的物件。匯出模型是基於對訓練資料集(即,其類標號已知的資料物件)的分析。「如何提供匯出模型?」匯出模式可以用多種形式表示,如分類(if-then)規則、判定樹、數學公式、或神經網路。判定樹是乙個類似於流程圖的結構,每個結點代表乙個屬性值上的測試,每個分枝代表測試的乙個輸出,樹葉代表類或類分布。判定樹容易轉換成分類規則。當用於分類時,神經網路是一組類似於神經元的處理單元,單元之間加權連線。分類可以用來**資料物件的類標號。然而,在某些應用中,人們可能希望**某些遺漏的或不知道的資料值,而不是類標號。當被**的值是數值資料時,通常稱之為**。儘管**可以涉及資料值**和類標號**,通常**限於值**,並因此不同於分類。**也包含基於可用資料的分布趨勢識別。相關分析可能需要在分類和**之前進行,它試圖識別對於分類和**無用的屬性。這些屬性應當排除。

資料探勘筆記(1)

1 資料探勘的一種定義 是一項通過探測大量資料以發現有意義的模式和規則的業務流程。資料探勘是一種業務流程,它以其它業務流程產生的大量資料為輸入,一般經過收集,清洗,整理,識別 分析和度量等加工,得到某種有意義的模式或規則作為輸出。而這種輸出反過來可以為其它業務流程提供度量,判斷,等作用。資料探勘的基...

資料探勘筆記 1

維歸約規範化 選擇資料子集 視覺化模式表達 高維性 物件擁有數量不少的屬性 資料的所有權與分布 分布式資料處理 非傳統的分析 資料探勘要求自動產生和評估假設,並且資料探勘資料集多是時機性樣本,而非隨機性樣本 關聯分析 association analysis 用來發現描述資料中強相關的模式 聚類分析...

資料探勘筆記1

資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...