在資料預處理,異常值是否剔除,需視具體情況而定,因為異常值可能蘊含著有用的資訊
將含有異常值的記錄直接刪除的方法簡單易行,但缺點也很明顯,在觀測值很少的情況下,這種刪除會造成樣本量不足,可能會改變變數的原有分布從而造成分析結果的不確定,視為缺失值處理的好處是可以利用現有變數的資訊,對異常值進行填補
資料探勘需要的資料往往分布在不同的資料來源中,資料整合就是將多個資料來源合併存在乙個一致的資料儲存(如資料倉儲)中的過程。
在資料整合時,來自多個資料來源的現實世界實體的表達形式時不一樣的,有可能不匹配,要考慮實體識別問題和屬性冗餘問題,從而將源資料在最底層上加以轉換,提煉和整合。
實體識別是指從不同資料來源識別現實世界的實體,它的任務是統一不同源資料的矛盾
常見形式:1.同名異義,2.異名同義,3.單位不統一
冗餘:1.同一屬性多次出現,2.同一屬性命名不一致導致重複
有些冗餘屬性可以用相關分析檢測
資料變換主要是對資料進行規範化處理,將資料轉換成「適當性」形式,以使用於挖掘任務及演算法的需要
常用的變換包括平方,開方,取對數,差分運算
使用這些簡單的函式變換常用來將不具有正態分佈的資料變換成具有正態分佈的資料。在時間序列分析中,有時簡單的對數變換或者差分運算就可以將非平穩序列轉換成平穩序列。
讀《python資料探勘與分析實戰》之六
在大資料集上進行複雜的資料分析和挖掘需要很長的時間,資料規約產生更小但保持原資料完整性的新資料集。在規約後的資料集上進行分析和挖掘將更有效率 資料規約的意義 1.降低無效,錯誤資料對建模的影響,提高建模的準確性。2.少量且具代表性的資料將大幅縮減資料探勘所需的時間,3.降低儲存資料的成本 通過屬性合...
資料特徵分析 Python資料探勘與分析
1.分布分析 1 定量資料的分布分析 求極差 組距 組數 分點 列出頻率分布表 繪製頻率分布直方圖 2 定性資料的分布分析 定性的資料常常使用變數來分組,然後使用餅圖 柱狀圖等來展示 2.對比分析 兩個相互聯絡的指標進行比較,從數量上展示和說明研究物件規模的大小,水平的高低,速度的快慢等 1 絕對數...
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...