ordinal(序數)
interval(區間)
ratio
注: 前兩類統稱為分類的或定性的屬性;後兩類:定量的或數值的。
特徵值的性質
離散 & 連續屬性
非對稱的屬性
資料集的一般特性:
大小(size):分析的型別取決於資料集的大小
記錄資料:
基於圖形的資料
有序資料
遺漏值 —— 缺失值 ,處理遺漏值的方法:
不一致的值
重複資料抽樣
維歸約
特徵子集選擇
特徵建立(三種方法)
特徵構造 (長寬高——> 體積)
離散化和二元化
監督離散化:使用附加的類標號
二元化:
變數變換
jaccard係數:
余弦相似度(非二元)【文件相似性常用】 ——> 向量
廣義jaccard係數
組合異種屬性的相似度
使用權值
密度:
相異度(計算方式)
非負性、對稱性、三角不等式
集合差時間
資料探勘學習07 《資料探勘導論》第二章 資料
本文目的 最近在看 資料探勘導論 此書作為此領域的入門書籍,很有口碑。這幾天抽業餘時間,看了第二章,覺得該記點什麼,否則對不起自己。人總在與遺忘作鬥爭,好記性不如爛筆頭。主要內容 本章節主要討論了資料處理的4個主要方面 資料型別 type of data 定義資料的屬性,記錄,資料集。屬性的型別分為...
資料探勘第二章 認識資料
2.4 度量資料的相似性和相異性 資料物件 實體 屬性 描述資料物件,資料物件的乙個特徵 屬性的型別 標稱屬性nominal attribute 二元屬性binary attribute 序數屬性ordinal attribute 數值屬性numeric attribute 區間標度屬性 比率標度屬...
資料結構導論 第二章
第二章主要說的是線性表,那麼什麼是線性表呢?線性表是一種線性結構,在頭結點無直接前驅有乙個直接後繼,尾節點無直接後繼有乙個直接前驅。1.線性表的順序儲存結構 簡單的說就是把線性表的結點按照它的邏輯結構順序,依次的存放到計算機記憶體中一組連續的儲存單元中。用順序儲存來實現的線性表為順序表。這裡要注意,...