1、資料型別:定量、定性、和其它特性。
資料型別決定可以使用何種工具和技術來分析資料。
新的應用領域和新的資料型別推動新的資料探勘研究。
2、資料質量:
注重理解和提高資料質量,將改進分析結果的質量,大多數時候好的資料比好的演算法更重要。
通常的資料質量問題:存在雜訊和離群點、資料遺漏、不一致和重複、資料有偏差。
3、使得資料更適合資料探勘的預處理步驟:處理使之更適合於分析,目的:
(1)提高資料質量
(2)更好地適應特定的dw技術活工具(例如:連續值轉離散值、資料集屬性數目需減少)。
4、根據「資料聯絡」分析資料。
5、重要原則:一定要了解資料,可以通過各種手段進行分析,常見手法如視覺化分析。
6、資料集:資料物件的集合
資料物件別名(記錄、點、向量、模式、事件、案例、樣本、觀測活實體)
屬性別名(變數、特性、字段、維)
7、屬性:符號屬性、數值屬性。
測量標度(measurement scale):將資料或符號與物件屬性相關聯的規則(函式)。
8、屬性型別,也稱測量標度的型別。
4中性質:相異性、序、加法、乘法。(以此定義4種屬性型別:標稱nominal、序數ordinal、區間interval、比率ratio)其定義依據是操作性質的範圍越來越窄。
標稱、序數統稱分類的(categorical)或定性的(qualitative)屬性。
區間、比率屬性統稱定量(quantitative)或數值(numeric)屬性。
【例子】
標稱型:一般在有限的資料中取,而且只存在『是』和『否』兩種不同的結果(一般用於分類)
數值型:可以在無限的資料中取,而且數值比較具體化,例如4.02,6.23,0.27這種值(一般用於回歸分析)
監督學習中的分類方法輸出是標稱型資料,回歸方法輸出是數值型資料。
【標稱屬性和數值屬性具體解釋】
屬性,表示資料物件的乙個特徵。
標稱屬性(nominal attribute)意味著『與名稱相關』,它的值是一些符號或事物的名稱。每個值代表某種類別,編碼或狀態,因此標稱屬性又被看作是分類的(categorical)。這些值不必具有有意義的序。在電腦科學中,這些值也被看做是列舉的(enumeration)。在標稱屬性上,數**算是沒有意義的。二元屬性(binary attribute)是一種標稱屬性,只有0,1兩種狀態。通常0表示不出現,1表示出現。
序數屬性(ordinal attribute),其可能只具有有意義的序或評定(ranking),但是相繼值之間的差是未知的,具有先後順序。序數屬性可以通過把數值量的值域劃分成有限個有序類別,把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但不能定義均值。
以上屬標稱屬性和序數屬性
都是定性的。即它們描述物件的特徵,而不給出實際大小或數量。
數值屬性(numeric attribute)是定量的,即它是可度量的量。數值屬性可以是區間標度的或比率標度的。
區間標度屬性(interval-scaled attribute)用相等的單位尺度度量。區間屬性的值。
比率標度(ratiao-scaled)屬性具有固定零點的數值屬性。可以進行數值運算。
屬性型別也可用允許的變換(permissible transformation)來描述。
9、用值的個數描述屬性:離散(discrete)、連續(continuous)
計數屬性(count attribute)是離散也是比率屬性。
10、非對稱屬性(asymmetric attribute):
非對稱屬性的含義:出現非零屬性值才是重要的。
11、資料集對挖掘技術有影響的特性:維度、稀疏性、解析度(resolution)。
維度:維災難(curse of dimensionality)、維規約(dismensionality reduction)。
稀疏性(sparsity)。
資料模式也依賴於解析度。
12、記錄資料、事務或購物籃資料、資料矩陣(模式矩陣)、稀疏資料矩陣。
13、基於圖形的資料
(1)捕獲資料物件之間的聯絡(即圖形化表示)
(2)具有圖形物件的資料。
14、有序資料:
(1)時序資料(sequential data)、時間資料(temporal data)
(2)序列資料(sequence data)
(3)時間序列資料(time series data):注意資料會存在時間自相關性(temporal autocorrelation)
(4)空間資料(spatial data):注意時間會存在空間自相關性(spatial autocorrelation)
15、處理非記錄資料
資料質量。
檢測和糾正(成為資料清理data cleaning)。
使用可以容忍低質量資料的演算法。
16、資料測量和收集。
(1)測量誤差(measurement error)和資料收集錯誤(data collection error)
(2)雜訊和偽像:魯棒演算法及是針對雜訊設計的。
(3)精度、偏倚、準確率、有效數字。
精度:偏倚:
準確率:
有效數字:
17、離群點(outlier)、異常()
遺漏值(方法:刪除資料物件或屬性、估計遺漏值、分析時忽略遺漏值)
18、不一致的值:去重(deduplication)
19、在應用中的資料相關問題:時效性、相關性(抽樣偏倚)、關於資料的知識。
python中基本資料處理
def function a,b if a 0 b 0 return 只做夜班 elif a 0 b 0 return 只做白班 elif a 0 b 0 return 未做單 else return 混合 function x.夜間上班時長,x.日間上班時長 axis 1 例 有某工廠工人上班時間...
學資料分析需要知道的知識(二)
那麼我們怎麼找出正確的資料指標呢?這就需要重視幾個細節,那就是定性指標與量化指標。那麼怎麼區分定性指標和量化指標呢?定量資料指的是那些我們跟蹤和衡量的數字。定性資料指的是難量化的資料。定量資料回答的是 什麼 和 多少 這樣的問題,定性資料回答的就是 為什麼 定量資料排斥主觀因素 定性資料吸納主觀因素...
學資料分析需要知道的知識(二)
那麼我們怎麼找出正確的資料指標呢?這就需要重視幾個細節,那就是定性指標與量化指標。那麼怎麼區分定性指標和量化指標呢?定量資料指的是那些我們跟蹤和衡量的數字。定性資料指的是難量化的資料。定量資料回答的是 什麼 和 多少 這樣的問題,定性資料回答的就是 為什麼 定量資料排斥主觀因素 定性資料吸納主觀因素...