乙個資料物件代表乙個實體(entity)
資料物件又稱為樣本、例項、資料點、或物件
資料行對應資料物件; 列對應屬性
資料物件用屬性(attribute)描述
屬性(attribute)是乙個資料字段,表示資料物件的乙個特徵
標稱屬性(nominal attribute) 其值是一些符號或者事物的名稱。
是一種標稱屬性,只有兩個狀態:0或1。
對稱的(symmetric): 兩種狀態具有同等價值,攜帶相同權重。
非對稱的(asymmetric): 其狀態的結果不是同樣重要
其可能的值之間具有有意義的序或者秩評定(ranking),但是相繼值之間的 差是未知的。
區間標度(interval-scaled)屬性
比率標度(ratio-scaled)屬性
具有有限或者無限可數個值。
如: 郵編、省份數目具有有限個值,customer_id是無 限可數的。
可以用或者不用整數表示。
屬性值為實數。
一般用浮點變數表示。
更好地識別資料的性質,把握資料全貌: 中心趨勢度量,資料散布
均值、中位數、眾數、中列數
極差、四分位數極差、五數概括、盒圖
分位數圖、分位數-分位數圖、直方圖、散點圖
資料分析師認識
今天與同事聊到如何入手做乙份資料分析專題,詢問了整個製作流程,這也讓想要入門的人有個學習的地方。在做資料分析之前,需要具備資料分析基礎知識,比如基本定義 維度,指標等概念 以下製作專題五部曲流程 第一步,跟客戶確認需求,專題的目標是什麼 第二步,採集基礎資料,包括使用者基本資訊,使用者pv等 第三步...
認識常見的Python資料分析庫
numpy 是乙個 python 包。它代表 numeric python 它是乙個由多維陣列物件和用於處理陣列的例程集合組成的庫。numpy的主要功能 快速高效的多維陣列物件ndarray 用於對陣列執行元素級計算以及直接對陣列執行數 算的函式 用於讀寫硬碟上基於陣列的資料集的工具 線性代數運算 ...
資料分析 資料分析的誤區
在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...