資料分析 資料的認識

2021-10-01 23:12:50 字數 643 閱讀 4580

乙個資料物件代表乙個實體(entity)

資料物件又稱為樣本、例項、資料點、或物件

資料行對應資料物件; 列對應屬性

資料物件用屬性(attribute)描述

屬性(attribute)是乙個資料字段,表示資料物件的乙個特徵

標稱屬性(nominal attribute) 其值是一些符號或者事物的名稱。

是一種標稱屬性,只有兩個狀態:0或1。

對稱的(symmetric): 兩種狀態具有同等價值,攜帶相同權重。

非對稱的(asymmetric): 其狀態的結果不是同樣重要

其可能的值之間具有有意義的序或者秩評定(ranking),但是相繼值之間的 差是未知的。

區間標度(interval-scaled)屬性

比率標度(ratio-scaled)屬性

具有有限或者無限可數個值。

如: 郵編、省份數目具有有限個值,customer_id是無 限可數的。

可以用或者不用整數表示。

屬性值為實數。

一般用浮點變數表示。

更好地識別資料的性質,把握資料全貌: 中心趨勢度量,資料散布

均值、中位數、眾數、中列數

極差、四分位數極差、五數概括、盒圖

分位數圖、分位數-分位數圖、直方圖、散點圖

資料分析師認識

今天與同事聊到如何入手做乙份資料分析專題,詢問了整個製作流程,這也讓想要入門的人有個學習的地方。在做資料分析之前,需要具備資料分析基礎知識,比如基本定義 維度,指標等概念 以下製作專題五部曲流程 第一步,跟客戶確認需求,專題的目標是什麼 第二步,採集基礎資料,包括使用者基本資訊,使用者pv等 第三步...

認識常見的Python資料分析庫

numpy 是乙個 python 包。它代表 numeric python 它是乙個由多維陣列物件和用於處理陣列的例程集合組成的庫。numpy的主要功能 快速高效的多維陣列物件ndarray 用於對陣列執行元素級計算以及直接對陣列執行數 算的函式 用於讀寫硬碟上基於陣列的資料集的工具 線性代數運算 ...

資料分析 資料分析的誤區

在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...