資料的質量
資料預處理,使資料更適合分析
根據資料聯絡分析資料,找到資料之間的聯絡,利用聯絡進行其餘分析
資料集的特性
資料清理:清理不真實或重複的物件(如人的身高2公尺,體重2kg)
涉及測量誤差的問題:
雜訊、偽像、偏倚、精度、準確率
涉及資料質量的問題:
離群點、遺漏、不一致的值、重複資料
資料收集錯誤:遺漏資料物件、不正確包含資料物件,也就是有其他相似但並不應該包含的資料的干擾
離群點:不同於資料集中其他大部分資料的物件
遺漏值:物件遺漏屬性(比如有人不願意透漏姓名、年齡)
聚集:將兩個或多個物件合併成單個物件(如表1:學號姓名,表2學號成績,聚集之後就變成乙個表:學號姓名成績)
抽樣:選擇資料物件子集進行分析的方法,資料探勘中採用抽樣是為了節省資料處理需要的時間、費用。
有效抽樣的原理:樣本越具代表性,效果越接近整個資料集
抽樣方法:簡單隨機抽樣(有放回、無放回),分層抽樣(對於總體由不同型別物件組成,且數量差別很大)
資料探勘(一)
什麼是資料探勘?簡單來說 沙裡淘金 data mining 複雜來說 從大量的,不完全的,有雜訊的,模糊的,隨機的實際應用資料中,提取隱含在其中的,人們事先不知道的,但又時潛在的有用的資訊和知識。資料探勘技術 統計學 機器學習 maching learning 資料探勘 機器學習 人工智慧 三者關係...
資料探勘筆記(一)
資料 資料倉儲 資料探勘 模型評估 知識 資料分析 通過資料分析可以發現最有價值客戶,是組合銷售更有效率,留住那些最有價值客戶,用更小的成本發現欺詐現象。通訊業手機資料分析目的是為了方便快捷地管理使用者。但資料中包含了很多關於各個變數之間關係的資訊,這些資訊可被用來改進相關領域的決策。基礎在於資料庫...
資料探勘學習(一)
資料探勘 從大量資料中抽取出 隱含的 有潛在用途的 未知的 人們可以理解的 有價值的資訊和模式的過程。2.建立目標資料集 資料選擇 3.資料清理和預處理 4.資料簡化和變形 5.選擇資料探勘功能 6.選擇資料探勘演算法 7.資料探勘 尋找有趣的模式 8.模式評估和知識展示 9.知識發現的使用 方法 ...