歡迎來到現實世界!
資料預處理技術:
這些技術不是互相排斥的,可以一起使用。資料清理可能涉及糾正錯誤資料的變換。
資料質量包括準確性、完整性、一致性、時效性、可信性和可解釋性。
現實是你希望使用資料探勘技術分析的資料時不完整的(缺少屬性值或某些感興趣的屬性,或僅包含聚集資料)、不正確的或含雜訊的(包含錯誤或存在偏離期望的值),並且是不一致的(用於商品分類的部分編碼存在差異)。
welcome to true world!
接下來分析一下原因,從而找到解決方法:
資料特性
原因描述
非準確性
收集資料的裝置出故障;當使用者不想提交個人資訊時,可能故意向強制輸入字段輸入不正確的值(生日1月1日);由於命名約定或輸入字段格式不一致;
具有不正確的屬性值
非完整性
輸入時被忽略;相關資料沒有記錄,可能是裝置故障;歷史或修改的資料可能被忽略;
存在缺失值
非一致性
屬性定義不同;例如市場評估標準不同;同一數值屬性名不同;
存在冗餘
非時效性
資料未能及時更新;月底資料未能及時更新影響評估效果;
不能及時更新
非可信性
資料被人為更改,導致結果;
反映有多少資料是使用者信賴的
非可解釋性
部門之間的資料具有個性;例如,資料使用了會計編碼,但銷售部門無法理解;
反映資料是否容易理解
資料清理
通過填寫缺失值,光滑雜訊資料,識別或刪除離群點,並解決不一致性來「清理」資料。致力於避免被建模的函式過分擬合資料。
資料整合
代表同一概念的屬性在不同的資料庫中可能具有不同的名字,導致不一致性和冗餘。通常,在為資料倉儲準備資料時,資料清理和整合作為預處理步驟進行。還可以再次進行資料清理,檢測和刪去可能由整合導致的冗餘。
資料規約
面對資料量巨大的資料,如果降低資料集的規模,而又不損害資料探勘的結果呢?
資料變換
總之,現實世界的資料一般是髒的、不完整的和不一致的。資料預處理技術可以改進資料的質量,從而有助於提高其後的挖掘過程的準確率和效率。由於高質量的決策必然依賴於高質量的資料,因此資料預處理是知識發現過程的重要步驟。檢測資料異常,盡早地調整資料,並規約待分析的資料,將為決策帶來高回報。缺失值
忽略元組
人工填寫缺失值
使用乙個全域性常亮填充缺失值:unknown
使用屬性的中心度量(均值或中位數)填充缺失值:是否傾斜
使用與給定元組屬同一類的所有樣本的屬性均值或中位數
使用最有可能的值填充:使用回歸、貝葉斯、決策樹**。(最科學)
雜訊資料
雜訊:被測量的變數的隨機誤差或方差。
實體識別問題
當乙個資料庫的屬性與另乙個資料庫的屬性匹配時,必須特別注意資料的結構。旨在確保源系統中的函式依賴和參照約束與目標系統中的匹配。
在乙個系統中,discount可能用於訂單,但在另外乙個系統中,它用於訂單中的商品。冗餘和相關分析
冗餘:乙個屬性如果能由另乙個或另一組屬性「匯出」,則該屬性冗餘。
標稱資料的卡方檢驗
數值資料的相關係數
數值資料的協方差
《資料探勘概念與技術》書記 1
有感知識點 資料探勘又稱資料中的知識發現 kdd 知識發現過程主要由以下步驟的迭代序列組成 資料清理 消除雜訊和刪除不一致資料等 資料整合 多種資料來源可以組合在一起 資料選擇 從資料庫中提取與分析任務相關的資料 資料變化 通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式 資料探勘 基本步驟,使...
資料探勘概念與技術
在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...
資料探勘概念與技術 文字挖掘
1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...