資料規範化又稱標準化(standardization),通過將屬性的取值範圍進行統一,避免不同的屬性在資料分析的過程中具有不平等的地位
常用方法:
最小-最**(min-max normalization)
z-score
最小-最**
假設需要對映到目標區間為[l,r]。原來的取值範圍為[l, r],則根據等比例對映的原理,乙個值x對映到新區間後的值v的計算方法如下:
例如,對於描述客戶的屬性「年收入(萬元)」,如果原來的取值範圍為[3,200],新的取值範圍為[0,1],則若某客戶的年收入為60萬元,規範化後為(60-3)/(200-3)=0.29
z-score
z-score,又稱零均值規範化(zero-mean normalization)。給定乙個屬性a,設其取值的均值為μa,標準差為σa,a的某個取值x規範化後的值v計算如下:
均值為μa和標準差為σa通過已有樣本的屬性值進行計算。規範化後的屬性a取值的均值為0,標準差為1
例如,年收入屬性的均值為82,標準差為39,則年收入60萬規範化後為-0.56
(60-82)/39
分箱離散化(等距離分箱、等頻率分箱)
等距離(equal- distance)分箱
又稱為等寬度分箱(equal-width binning),是將每個取值對映到等大小的區間的方法
等距離分箱可能導致屬於某些的取值非常多,而某些又非常少
例如:假設14個客戶的屬性「年收入」的取值按順序為:
20,40,50,58,65,80,80,82,86,90,96,105,120,200
利用等距離分箱,區間的個數為4,則區間間距為(200-20)/4=45,則4個箱的區間分別為[20,65),[65,110),[110,155),[155,200]
[20,65) : 20,40,50,58
[65,110): 65,80,80,82,86,90,96,105
[110,155): 120
[155,200]: 200
等頻率(equal-frequency)分箱
又稱等深度分箱(equal-depth binning)。它將每個取值對映到乙個區間,每個區間內包含的取值個數大致相同
例如:假設14個客戶的屬性「年收入」的取值按順序為:
20,40,50,58,65,80,80,82,86,90,96,105,120,200
利用等頻率分箱,每箱3個值,則4個箱分別為[20,40,50],[58,65,80,80],[82,86,90],[96,105,120,200]
基於熵的離散化
分箱離散化是一種無監督離散化方法
基於熵的離散化方法是常用的有監督的離散化方法
給定乙個資料集d及分類屬性的取值,即類別集合c=,資料集d的資訊熵entropy(d)的計算公式
其中p(ci)=count(ci)/|d|,count(ci)表示類別ci在d**現的次數,|d|代表d中的資料行數,即物件個數。資訊熵的取值越小,類別分布越純,反之越不純
離散化方法chimerge
如果基於熵的方法可以看作是自頂向下的**方法,則chimerge則屬於自底向上的合併方法
chimerge是從每個值都是乙個小區間開始,不斷合併相鄰區間成為大的區間,它是基於統計量卡方檢驗實現的
k為類別的個數
處理資料的缺失、噪音資料的處理以及資料不一致的識別和處理
處理資料的缺失:
如果資料集含有分類屬性,一種簡單的填補缺失值的方法為
對於數值屬性:將屬於同一類的物件的該屬性值的均值賦予此缺失值
對於離散屬性或定性屬性,用眾數代替均值
更複雜的方法,可以將其轉換為分類問題或數值**問題
噪音資料的處理
一類是識別出噪音,將其去除:孤立點(離群點、outliers)的識別屬於第一類方法,上一章中介紹聚類演算法dbscan時提到過,最終不屬於任乙個簇的點可以看作噪音。
異常點( anomaly)
一類是利用其它非噪音資料降低噪音的影響,起到平滑(smoothing)的作用: 1) 分箱(binning)方法可以用於平滑噪音。例如,將年收入的缺失值填補之後,將其取值利用分箱法平滑噪音; 2) 線性回歸
什麼是特徵?
資料集中的屬性便是特徵。
比如身高、體重、興趣、專業、年級、成績等等
為什麼要進行特徵提取或特徵選擇
在現實生活中,乙個物件往往具有很多屬性(以下稱為特徵),這些特徵大致可以被分成三種主要的型別:
相關特徵:對於學習任務(例如分類問題)有幫助,可以提公升學習演算法的效果;
無關特徵:對於演算法沒有任何幫助,不會給演算法的效果帶來任何提公升。
冗餘特徵:不會對我們的演算法帶來新的資訊,或者這種特徵的資訊可以由其他的特徵推斷出
比如:平均成績可以用總成績除以課程數
特徵提取與特徵選擇
特徵選擇:從原始特徵資料集中選擇出子集,是一種包含的關係,沒有更改原始的特徵空間。
特徵提取:主要是通過屬性間的關係,如組合不同的屬性得到新的屬性。
兩者的目的
降維,即減少屬性(特徵)的數量
降低學習任務的難度
提公升模型的效率
商務智慧型大總結1 商務智慧型概念及過程
商務智慧型 business intelligence 概念 1996年gartner group 的howard dresner提出由資料倉儲 或資料集市 查詢報表 資料分析 資料探勘 資料備份和恢復等部分組成的 以輔助企業決策為目的一類技術及其應用。知識發現過程 7個步驟如下 1 資料清理 消除...
資料預處理總結1
使資料服從標準正態分佈,均值為0,方差為1。做資料探勘,pandas和numpy庫肯定是要引入的,這裡就省略了。from sklearn.preprocessing import standardscaler import warnings warnings.filterwarnings ignor...
資料預處理方法總結
資料是什麼?資料就是一組物件及其屬性的集合,其中屬性定義為物件的特徵或性質。真實資料在應用前基本都有經過預處理,以便在機器學習演算法中使用。本次資料預處理方法的總結是基於推薦系統設計進行展開的,其中包括相似度的度量方法 抽樣以及降維技術這三個尤為重要的問題。d x y k 1 n xk yk 2 x...