資料探勘概念與技術 第2章

2021-10-16 13:05:02 字數 2527 閱讀 2345

1、資料屬性

標稱屬性

類別型屬性,不同類別間無法比較順序, 如:職業類別, 顏色類別等

二元屬性

只有兩個類別, 0表示屬性不出現, 1表示出現 如,是否抽菸等

對稱的二元屬性

兩種狀態有相同的價值,攜帶相同的權重,如性別的男女屬於對稱的二元屬性(一般 標識性別時男為1,女為0)

非對稱的二元屬性

兩種狀態有著不一樣的權重, 如愛滋病病毒化驗結果,1 為陽性,0 為陰性,通常使用1表示重要的狀態(hiv陽性), 另乙個用0表示(hiv陰性)

序數屬性

可以排先後順序, 單元素之間的差值無意義 如, 大中小, 很滿意, 滿意, 中性,不滿意等

區間標度屬性

先後順序, 差值都有意義, 但倍數無意義的屬性, 如溫度,可以說10度比5度高5度, 但無法說10度是5度的2倍, 因為0度不是表示沒有溫度。

比率標度屬性

具有固定零點的數值屬性,這時候,先後排序,差值,倍數都是有意義的。如重量, 速度等(速度4m/s 是2m/s 的兩倍

2、數值的中心趨勢度量

算術均值

令x1,x2... xn 為某一屬性的n個觀測值, 其均值為:

(x1+x2+...+xn)/n

加權平均

(w1x1+w2x2+...+wnxn)/(w1+w2+...+wn)

截尾平均

截尾均值為丟棄高低極端值後的均值, 如公司的平均工資可能被幾個高收入的經理拉高, 截尾均值能夠抵消少數異常值的影響, 如計算平均工資時, 可以在計算均值之前先去掉前後2%(比例自己定義,但應避免截去太大比例, 因為會丟失太多資訊)

中位數先將n個數值按順序排列, 中間的那個值就是中位數, 如果n為奇數,中位數為該有序集的中間值, 如果n為偶數, 一般取中間兩個值的均值,中位數可以避免極端值對均值的影響, 一般收入中位數比收入均值更能代表總體收入水平

眾數資料集的眾數是指出現最頻繁的值, 可以對定性和定量屬性確定眾數

中列數中列數是資料最大值和最小值的均值, 即(max() + min())/2

3、資料的分散程度度量

極差設x1,x2...xn 為乙個集合, 該集合的極差為最大值與最小值之差

四分位數

有三個點,將資料劃分成相同大小的4個資料集合, 所以第乙個四分位數q1為第25%處,第二個百分位數q2為50%處, 第三個分位數q3為第75%處

四分位數極差

q3-q1 即, 第三個四分位數與第乙個四分位數的差值

五數概括

由min, q1,median, q3,max 組成

即, 最小值, 四分位數q1, 中位數,四分位數q3和最大值組成

盒圖盒的端點在四分位上(q1,q3) , 中位數用盒內的線標記, 盒外的兩條鬍鬚延伸到最大值和最小值, 如果最大值比q3大1.5倍的iqr(q3-q1) , 鬍鬚延伸至1.5被iqr處, 最小值小於q1 的1.5倍iqr, 向下的鬍鬚延伸至1.5被iqr處, 超過鬍鬚的點,單獨的繪出(一般被認為離群點)

標準差和方差

標準差是方差開根號的結果, 兩者都可以指出資料分布的離散程度, 低標準差意味著資料更靠近均值, 高標準差意味著資料散布在較大的值域中。當資料集中數值完全一樣時, 標準差為0, 否則標準差大於0 ,重要的是, 可以證明至少(1-1/k^2) * 100% 的觀測值不超過k個標準差。

4、基本統計描述圖形

q-q分位圖

q-q分位圖一般有兩種用途。

1、檢驗一列資料是否符合某一分布

2、檢驗兩列是否同分布

4.4 散點圖

《資料探勘 概念與技術》 第3章 資料預處理

資料要得以應用,必須是高質量的。高質量包括以下6點 1.準確性 2.完整性 3.一致性 4.時效性 5.可信性 6.可解釋性 資料清理 消除噪音,糾正不一致。資料整合 不同資料來源合併乙個,資料倉儲。資料規約 聚集和刪除冗餘,降低資料規模。資料變換 資料壓縮 對映 較小的區間。造成資料不準確 不完整...

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘 第2章 資料

二 資料質量 三 資料預處理 四 相似性和相異性度量 1 基本概念 資料 資料集可以看做資料物件的集合。資料物件有時也叫做記錄 點 向量 模式 案例 樣本 觀測或實體。資料物件用一組刻畫物件基本特性的屬性描述。屬性有時也叫做變數 特性 字段 特徵或維。通常,資料集是乙個檔案,其中物件是檔案的記錄,而...