資料探勘筆記 2 資料規約

2021-09-06 13:18:45 字數 752 閱讀 9361

資料規約

對於中小型資料集而言,前面提到的資料探勘準備中的預處理步驟通常足夠了。但對於真正意義上的大型資料集,在應用資料探勘技術之前,還需要執行乙個中間的、額外的步驟—資料規約。本次主要說維規約。

3.1 大型資料的維度

資料規約過程的3個基本操作是刪除列、刪除行、減少列中值的數量。

全面分析下述引數:計算時間、**/描述精度、資料探勘模型的描述

3.2 特徵規約

「維數災」

3.2.1 特徵選擇

演算法一般分為兩類:特徵排列演算法和子集選擇演算法

3.2.2 特徵提取

資料探勘技術始於適當資料表達方式的設計。 把輸入集轉換為新的規約特徵集稱為特徵提取。

3.3 relief 演算法

relief演算法是乙個基於特徵加權的特徵選擇演算法,它的靈感來自所謂的基於例項學習。relief演算法的要點是為每個特徵計算乙個等級分數,表示這個特徵區分鄰近樣本的能力。relief演算法的核心是根據特徵值區分鄰近樣本的能力,來評估特徵的質量。

relief演算法比較簡單,它完全依賴統計方法。

3.4 特徵排列的熵度量

3.5 主成分分析

最流行的大型資料集維規約的統計方法是karhunen-loeve(k-l)方法,也叫主成分分析(pca)。

3.6 值規約

減少已知特徵的離散值數目是基於資料規約階段的第二套技術,即特徵離散化技術。

3.7 特徵離散化:chimerge技術

3.8 案例規約

資料探勘導論學習筆記(2) 資料(2)

資料預處理 優點 減少分析的資料可以減少占用空間和處理時間,可以使用更大開銷的挖掘演算法。缺點 可能會丟失模式。優點 減少分析的資料可以減少占用空間和處理時間,可以使用更大開銷的挖掘演算法。缺點 肯定沒有全量資料分析準確,可能會 丟失模式。抽樣方法 1.簡單隨機抽樣 random samping 隨...

資料探勘2

目的 1.熟悉了解整個資料集的基本情況 缺失值 異常值 對資料集進行驗證是否可以進行接下來的機器學習或者深度學習建模。2.了解變數間的相互關係 變數與 值之間的存在關係。3.為特徵工程做準備。import pandas as pd import numpy as np import matplotl...

資料探勘學習筆記2 資料預處理

現實資料是 骯髒的 沒有高質量資料,就沒有高質量的挖掘結果 資料清理 填寫空缺的值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 資料整合 整合多個資料庫,資料立方體或檔案 資料變換 規範化和聚集 資料規約 得到資料集的壓縮表示,它小得多,但可以相同或相近的結果 資料離散化 資料規約的一部分,通過概...