《資料探勘導論》 第二章資料

2021-09-11 03:17:53 字數 881 閱讀 7649

ordinal(序數)

interval(區間)

ratio

注: 前兩類統稱為分類的或定性的屬性;後兩類:定量的或數值的。

特徵值的性質

離散 & 連續屬性

非對稱的屬性

資料集的一般特性:

大小(size):分析的型別取決於資料集的大小

記錄資料:

基於圖形的資料

有序資料

遺漏值 —— 缺失值 ,處理遺漏值的方法:

不一致的值

重複資料抽樣

維歸約

特徵子集選擇

特徵建立(三種方法)

特徵構造 (長寬高——> 體積)

離散化和二元化

監督離散化:使用附加的類標號

二元化:

變數變換

jaccard係數:

余弦相似度(非二元)【文件相似性常用】 ——> 向量

廣義jaccard係數

組合異種屬性的相似度

使用權值

密度:

相異度(計算方式)

非負性、對稱性、三角不等式

集合差時間

資料探勘學習07 《資料探勘導論》第二章 資料

本文目的 最近在看 資料探勘導論 此書作為此領域的入門書籍,很有口碑。這幾天抽業餘時間,看了第二章,覺得該記點什麼,否則對不起自己。人總在與遺忘作鬥爭,好記性不如爛筆頭。主要內容 本章節主要討論了資料處理的4個主要方面 資料型別 type of data 定義資料的屬性,記錄,資料集。屬性的型別分為...

資料探勘第二章 認識資料

2.4 度量資料的相似性和相異性 資料物件 實體 屬性 描述資料物件,資料物件的乙個特徵 屬性的型別 標稱屬性nominal attribute 二元屬性binary attribute 序數屬性ordinal attribute 數值屬性numeric attribute 區間標度屬性 比率標度屬...

資料結構導論 第二章

第二章主要說的是線性表,那麼什麼是線性表呢?線性表是一種線性結構,在頭結點無直接前驅有乙個直接後繼,尾節點無直接後繼有乙個直接前驅。1.線性表的順序儲存結構 簡單的說就是把線性表的結點按照它的邏輯結構順序,依次的存放到計算機記憶體中一組連續的儲存單元中。用順序儲存來實現的線性表為順序表。這裡要注意,...