了解業務--了解資料--確認業務和資料--預期分析和管理-資料分析方式
01.了解資料資料
1.測量標度型別
屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。
屬性的型別--測量尺度
nominal 標稱----等於或者不等於--------一對一的變換
ordinal 序數---大於或者小於----------單調函式的變換
interval 區間----加減------------------- 一次函式
ratio 比率---- 乘除------------------- 比例函式
資料的大類:離散資料和連續資料-
資料的度量單位:分、元
舉例溫度--華氏溫度和攝氏溫度
計數屬性是離散的也是比率屬性
2.有序資料--屬性涉及時間或者空間的聯絡
截面資料--在相同或者近似相同的時間點上收集的資料
時序資料
時間序列資料
序列資料--考慮項的位置
空間資料
資料集 資料集的屬性
維度稀疏性
資料集的平衡性--非平衡資料
粒度--解析度
時效性相關性
訓練集和測試集--為了評估模型的可靠性以及擴充套件性
資料集的表示--資料格式
資料矩陣
購物籃資料
資料背景
資料分析和判斷,其中對資料背景的了解是必不可少的
02.了解資料過程中的常見問題資料的安全性
資料的保密:許可權以及抵抗力
資料的恢復:冗餘-備份-容災
資料的追溯:可追溯
資料**--
資料過程可重複
資料的可用性
資料質量問題
完整,全面,一致,準確,可解釋-可靠性
現象--原因---解決方式
異常值--缺失值--重複值--不一致值--雜訊--遺漏值
資料質量的檢測和糾正
資料演算法的容忍度
資料的復用性
資料格式--資料是給人看的,同時也是給機器看的--檔案格式與編碼
通過一定的資料格式--自解釋資料格式 例如:json,xml等
資料架構可用性
架構的可擴充套件性
資料的流動
異構資料來源流向統一的目標資料--資料的etl
採集誤差--轉換規則
資料陷阱
沉默資料缺失
資料的成本和時效
資料過擬合--評估模型的可靠性--分為訓練集和測試集
資料造假
案例-孫臏 減灶誘敵
諸葛亮 增灶退兵
確認場景 確認資料 是什麼?
探索原因,需找因素 為什麼
解決思路和方式 怎麼辦
技術流派
從資料結果上
1、檢索結果中的資料格式檢驗,從開發角度來說是了解資料型別,欄位等的準確性
2、檢索結果中的資料量是否符合檢索條件,判斷資料量的準確性。資料的分布,極值和均值等
3. 樣本資料檢測,通過不同的資料進行相互驗證,判斷資料中數值的正確性,
4. 歷史資料檢測,進行資料合理性判斷
常規內容
了解常見的錯誤型別
記錄特殊的錯誤型別
規範的資料操作方式
參考 資料分析概述
對於資料分析,我相信每個使用了資訊系統的企業,都有自己的理解。他們有些來自書本,有些來自於工作經驗,有些來自於軟體 貨。但就我所了解的企業與資訊系統,他們對於資料包表的定義 對資料分析的一些基本的理解不盡相同。有一部分是真正的理解差異,可是有部分是由於各自的名詞不同而引起的。另外,我認為資料分析的真...
資料分析概述
1 什麼是資料分析?指用適當的統計方法,對收集來的大量資料進行分析,並將它們加以彙總和理解並消化,以求最大化的開發資料的功能,發揮資料的作用。對收集的大量資料進行加工 計算 整理 清洗 分析。2 資料分析的劃分 描述性資料分析 探索性資料分析 驗證性資料分析 3 資料分析三大作用 現狀分析 原因分析...
資料分析 資料分析的誤區
在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...