先做描述性統計,分析離群點
如果資料服從正態分佈,則距離平均值3之外的值出現概率為p<=0.003,為極小概率事件
異常值通常被定義為ql-1.5iqr或大於qu+1.5iqr的值
ql稱為下四分位數,表示全部觀察值中有四分之一資料比他小
qu稱為上四分位數,表示全部觀察值中有四分之一資料比他大
iqr稱為四分位數間距,是qu-ql,為樣本的一半
資料不一致性是指資料的矛盾性與不相容性,類似於乙個人有兩個身份證號碼
定性資料分析
畫扇形圖和條形圖分析
對比分析
週期性分析
觀察資料是否有週期性變化
貢獻度分析
原理:帕累託法則,二八定律,通過繪圖觀察
統計量分析
離中趨勢度量
相關性分析
資料分析與挖掘
學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...
資料分析與挖掘
1 概述 1.1 使用者研究縱覽 使用者研究可以從定性分析和定量分析兩個不同的維度展開 定性分析是從小規模的資料樣本中發現新事物的方法,主要應用於使用者體驗調查 定量分析是用大資料量的樣本來測試和證明某些事情的方法,主要應用於使用者行為資料分析。1.2 資料分析與挖掘流程規範 資料分析與挖掘型系統建...
資料分析與挖掘
用於資料分析的 olap 系統的主要特點就是資料量非常大,併發訪問不多,但每次訪問所需要檢索的資料量都比較多,而且資料訪問相對較為集中,沒有什麼比較明顯的活躍資料概念。olap 即聯機分析處理,是資料倉儲的核心部心,所謂資料倉儲是對於大量已經由 oltp 形成的資料的一種分析型的資料庫,用於處理商業...