資料探勘 概念與技術第二章總結及練習

2021-10-04 20:50:29 字數 2747 閱讀 1688

2.1資料物件與屬性型別

2.1.1什麼是屬性

1.標稱屬性、

2.二元屬性、

3.序數屬性、

4.數值屬性

5.數值屬性包括區間標度屬性和比率標度屬性

6.離散屬性與連續屬性

2.2資料的基本統計描述

2.1資料散步特徵的統計度量

變異係數:度量標準差相對於均值的離中趨勢

四分位數間距:上四分位數與下四分位數的差值

特點:避免了數列中極端值的影響,去頭棄尾,丟失了大量的原始資料

平均差:變數數列中各個變數值與算術平均值的絕對離差的平均數

平均值越大,數列離散趨勢越大

異眾比率:又稱離異比率或變差比,指非眾數的次數與全部變數值總次數的比值

2.2

import pandas as pd

mydict=

age=pd.dataframe(mydict)

a)

#求平均值

age.mean(

)#29.962963

#求中位數

age.quantile(

0.5)

#25.00

b)

#求眾數

age.mode(

)#25,35

該資料是雙峰

c)中列數=(70+13)/2=41.5

g)分位數-分位數圖:對著另乙個對應的分位數,繪製乙個單變數分布的分位數,使使用者可以觀察從乙個分布到另乙個分布是否有漂移;

分位數圖: 一種觀察單變數資料分布的簡單有效方法,它顯示給定屬性的所有資料(允許尋常和不尋常的出現),其次,它會處理分位數資訊。

2.3n/2=1247

median=21+(1247-950)*29/1500=26.742

2.4import pandas as pd

mydict1=

age=pd.dataframe(mydict1)

#平均值

age.mean()

#age 46.444444

#%fat 28.783333

#中位數

age.median()

#age 51.0

#%fat 30.7

#標準差

age.std()

#age 13.218624

#%fat 9.254395

#盒圖import matplotlib.pyplot as plt

#畫散點圖

#匯入依賴庫

import pandas as pd

from scipy import stats

from matplotlib import pyplot as plt

#繪製並列印qq圖

plt.rcparams[『axes.unicode_minus』]=false #用來正常顯示負號

a)歐幾里得距離

6.70

b)曼哈頓距離

3.31

c)閔可夫斯基距離

15.26

d)上確界距離 6

《資料探勘導論》 第二章資料

ordinal 序數 interval 區間 ratio 注 前兩類統稱為分類的或定性的屬性 後兩類 定量的或數值的。特徵值的性質 離散 連續屬性 非對稱的屬性 資料集的一般特性 大小 size 分析的型別取決於資料集的大小 記錄資料 基於圖形的資料 有序資料 遺漏值 缺失值 處理遺漏值的方法 不一...

第二章 技術

1 編譯器assert pragma warning disable 4101 使用陣列,無法傳入額外引數 define static assert1 express 使用大括號是為了保證作用域,防止名字衝突 使用類建構函式,同樣無法傳入額外引數方便上層呼叫者知道是在 template class ...

資料探勘第二章 認識資料

2.4 度量資料的相似性和相異性 資料物件 實體 屬性 描述資料物件,資料物件的乙個特徵 屬性的型別 標稱屬性nominal attribute 二元屬性binary attribute 序數屬性ordinal attribute 數值屬性numeric attribute 區間標度屬性 比率標度屬...