主要工作是刪除原始資料集中的無關資料、重複資料、平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值、異常值等。
資料探勘需要的資料往往分布在不同的資料來源中,資料整合就是將多個資料來源合併存放在乙個一致的資料儲存(如資料倉儲)中的過程。在資料整合時,來自多個資料來源的現實世界實體的表達形式是不一樣的,不一定是匹配的,要考慮實體識別問題和屬性是不一的,不一定是匹配的,要考慮實體識別問題和屬性冗餘問題,從而把源資料在最低層上加以轉換、提煉和整合。
主要是對資料進行規範化的操作,將資料轉換成「適當的」格式,以適用於挖掘任務及演算法的需要。常有簡單函式變換、規範化、連續屬性離散化、屬性構造、小波變換等。以下做各自的說明。
即產生更小但保持原資料完整性的新資料集,因為在大資料集上進行複雜的資料分析和挖掘往往需要很長的時間。資料規約包括屬性規約、資料規約。
函式名功能
interp1()
一維插值
unique()
去除重複元素,得到單值元素列表
find()
找到相應標識的位置
isnan()
判斷是否為數值
mapminmax()
最大值最小值的規範化
zscore()
標準差規範化
資料分析與資料探勘
一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...
資料分析與資料探勘
資料分析是指採用適當的統計分析方法對收集到的資料進行分析 概括和總結,對資料進行恰當的描述,並提取出有用的資訊的過程。資料探勘是指從海量的資料中通過相關的演算法發現隱藏在資料中的規律和知識的過程。知識發現的過程如下。1.資料清理 清除資料中的雜訊。3.資料選擇 從資料庫中選擇與任務有關的資料。4.資...
資料分析與挖掘
學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...