《資料探勘 概念和技術》筆記之資料預處理

2021-06-15 22:26:19 字數 861 閱讀 4441

資料預處理對於資料倉儲和資料探勘都是乙個重要的問題,因為現實中的資料多半是不完整的、有雜訊的和不一致的。資料預處理包括資料清理、資料整合、資料變換和資料規約。

描述性資料彙總為資料預處理提供分析基礎。資料彙總的基本統計學度量包括度量資料集中趨勢的均值、加權平均、中位數和眾數,度量資料離散程度的極差、四分位數、四分位數間距、方差和標準差。圖形表示,如直方圖、盒圖、分位數圖、分位數

-分位數圖、散布圖和散布圖矩陣都有利於資料的視覺考察,因此對資料預處理和挖掘是有用的。

資料清理例程試圖填補缺失的值,光滑雜訊,識別離群點並糾正資料的不一致性。資料清理通常是乙個迭代的兩步過程,包括偏差檢測和資料變換。

資料整合將來自不同資料來源的資料整合成一致的資料儲存。元資料、相關分析、資料衝突檢測和語義異構性的解決都有助於資料的順利整合。

資料變換例程將資料變換成適於挖掘的形式。例如:屬性資料可以規範化,使得它們可以落在較小的區間,如

0.0~1.0

資料規約技術,如資料立方體聚集、屬性子集選擇、維度規約、數值規約和離散化都可以用來得到資料的規約表示,而使資訊內容的損失最小。

數值資料的資料離散化和概念分層自動產生可能涉及諸如分箱、直方圖分析、基於熵的離散化、x2

分析、聚類分析和基於直觀劃分的離散化等技術。對於分類資料,概念分層可以根據定義分層的屬性的不同值個數自動產生。

儘管已經開發了許多資料預處理的方法,由於不一致性或髒資料數量巨大以及問題本身的複雜性,資料預處理仍然是乙個活躍的研究領域。

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘概念與技術 文字挖掘

1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...