在大資料集上進行複雜的資料分析和挖掘需要很長的時間,資料規約產生更小但保持原資料完整性的新資料集。在規約後的資料集上進行分析和挖掘將更有效率
資料規約的意義:1.降低無效,錯誤資料對建模的影響,提高建模的準確性。2.少量且具代表性的資料將大幅縮減資料探勘所需的時間,3.降低儲存資料的成本
通過屬性合併來創新屬性維數,或者直接通過刪除不相關的屬性(維)來減少資料維數,從而提高資料探勘的效率,降低計算成本。屬性規約的目標是尋找出最小的屬性子集並確保新資料子集的概率分布盡可能地接近資料集的概率分布。常用的方法:
逐步向前選擇,逐步向後刪除和決策樹歸納是屬於直接刪除不相關性(維)方法。主成分分析是一種用於連續屬性的資料降維方法,它構造了原始資料的乙個正交變換,新空間的基底去除了原始空間基底下資料的相關性,只需使用少量新變數就能夠解釋原始資料中的大部分變異。
**後續再加吧!!!!本地實現了一下還是挺好的
數值規約指通過選擇替代的,較小的資料來減少資料量,包括有引數方法和無引數方法兩類。有引數方法是使用乙個模型來評估資料,只需存放引數,而不需要存放實際資料,例如回歸(線性回歸和多元回歸)和對數線性模型(近似離散屬性集中的多維概率分布)。無引數方法需要存放實際資料,例如直方圖,聚類,抽樣。
讀《python資料探勘與分析實戰》之五
在資料預處理,異常值是否剔除,需視具體情況而定,因為異常值可能蘊含著有用的資訊 將含有異常值的記錄直接刪除的方法簡單易行,但缺點也很明顯,在觀測值很少的情況下,這種刪除會造成樣本量不足,可能會改變變數的原有分布從而造成分析結果的不確定,視為缺失值處理的好處是可以利用現有變數的資訊,對異常值進行填補 ...
資料特徵分析 Python資料探勘與分析
1.分布分析 1 定量資料的分布分析 求極差 組距 組數 分點 列出頻率分布表 繪製頻率分布直方圖 2 定性資料的分布分析 定性的資料常常使用變數來分組,然後使用餅圖 柱狀圖等來展示 2.對比分析 兩個相互聯絡的指標進行比較,從數量上展示和說明研究物件規模的大小,水平的高低,速度的快慢等 1 絕對數...
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...