資料分析 資料分析概述

2022-09-17 06:51:09 字數 1744 閱讀 6926

了解業務--了解資料--確認業務和資料--預期分析和管理-資料分析方式
01.了解資料
資料

1.測量標度型別

屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。

屬性的型別--測量尺度

nominal 標稱----等於或者不等於--------一對一的變換

ordinal 序數---大於或者小於----------單調函式的變換

interval 區間----加減------------------- 一次函式

ratio 比率---- 乘除------------------- 比例函式

資料的大類:離散資料和連續資料-

資料的度量單位:分、元

舉例溫度--華氏溫度和攝氏溫度

計數屬性是離散的也是比率屬性

2.有序資料--屬性涉及時間或者空間的聯絡

截面資料--在相同或者近似相同的時間點上收集的資料

時序資料

時間序列資料

序列資料--考慮項的位置

空間資料

資料集 資料集的屬性

維度稀疏性

資料集的平衡性--非平衡資料

粒度--解析度

時效性相關性

訓練集和測試集--為了評估模型的可靠性以及擴充套件性

資料集的表示--資料格式

資料矩陣

購物籃資料

資料背景

資料分析和判斷,其中對資料背景的了解是必不可少的

02.了解資料過程中的常見問題
資料的安全性

資料的保密:許可權以及抵抗力

資料的恢復:冗餘-備份-容災

資料的追溯:可追溯

資料**--

資料過程可重複

資料的可用性

資料質量問題

完整,全面,一致,準確,可解釋-可靠性

現象--原因---解決方式

異常值--缺失值--重複值--不一致值--雜訊--遺漏值

資料質量的檢測和糾正

資料演算法的容忍度

資料的復用性

資料格式--資料是給人看的,同時也是給機器看的--檔案格式與編碼

通過一定的資料格式--自解釋資料格式 例如:json,xml等

資料架構可用性

架構的可擴充套件性

資料的流動

異構資料來源流向統一的目標資料--資料的etl

採集誤差--轉換規則

資料陷阱

沉默資料缺失

資料的成本和時效

資料過擬合--評估模型的可靠性--分為訓練集和測試集

資料造假

案例-孫臏 減灶誘敵

諸葛亮 增灶退兵

確認場景 確認資料  是什麼?

探索原因,需找因素 為什麼

解決思路和方式 怎麼辦

技術流派
從資料結果上

1、檢索結果中的資料格式檢驗,從開發角度來說是了解資料型別,欄位等的準確性

2、檢索結果中的資料量是否符合檢索條件,判斷資料量的準確性。資料的分布,極值和均值等

3. 樣本資料檢測,通過不同的資料進行相互驗證,判斷資料中數值的正確性,

4. 歷史資料檢測,進行資料合理性判斷

常規內容

了解常見的錯誤型別

記錄特殊的錯誤型別

規範的資料操作方式

參考

資料分析概述

對於資料分析,我相信每個使用了資訊系統的企業,都有自己的理解。他們有些來自書本,有些來自於工作經驗,有些來自於軟體 貨。但就我所了解的企業與資訊系統,他們對於資料包表的定義 對資料分析的一些基本的理解不盡相同。有一部分是真正的理解差異,可是有部分是由於各自的名詞不同而引起的。另外,我認為資料分析的真...

資料分析概述

1 什麼是資料分析?指用適當的統計方法,對收集來的大量資料進行分析,並將它們加以彙總和理解並消化,以求最大化的開發資料的功能,發揮資料的作用。對收集的大量資料進行加工 計算 整理 清洗 分析。2 資料分析的劃分 描述性資料分析 探索性資料分析 驗證性資料分析 3 資料分析三大作用 現狀分析 原因分析...

資料分析 資料分析的誤區

在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...