資料探勘(資料處理基礎)

2021-06-25 19:01:52 字數 2573 閱讀 8974

資料及資料型別:資料是資料庫儲存的基本物件,狹義的資料理解為數值,廣義的資料理解為記錄。資料的屬性:標稱(nominal)、序數(ordinal)、區間(interval)和比率。標稱的屬性(只提供足夠的資訊以區分物件,例如甲乙丙)序數屬性(提供足夠的資訊,區別物件的序,例如及格,不及格)區間屬性(其屬性的差值是有意義的,例如日期)比率屬性(其值的差和比率均有意義,例如速率)

標稱和序數屬性:稱為分類或者定性屬性。區間和比率屬性:稱為數值或者定量屬性

資料集:

資料集三個重要的特性:維度、稀疏性、解析度

維度:代表了資料集中屬性的個數,有低、中、高三種資料集維度,在面對高維度通常會碰到維災難。這就引出了資料預處理中的重要技術維歸約

稀疏性:有的資料集,有意義的資料非常少,物件在大部分的屬性取值為0

資料集分類:記錄資料(事務資料或購物籃資料:典型例子,超市零售資料。 資料矩陣:類似二維表乙個行表示乙個資料物件,乙個列表示資料的屬性)

基於圖形的資料(帶權圖就是一種最簡單的圖形資料)有序資料(時間資料、序列資料、時間序列資料、空間資料、流資料)

資料的統計特徵:

資料的中心趨勢度量和資料的離散程度度量

中心趨勢度量:最常用最高效的是算術平均值(變形加權均值和截斷均值),另外還包括眾數(在集合中出現頻率最高的值)、中位數(常用於傾斜的資料)、中列數(為最大和最小數的均值)

資料的離散程度度量:極差(最大數減去最小數)、方差以及四分位極差等

資料的預處理:

步驟:資料清理、資料整合、資料變換、資料規約、資料離散化

資料清理:(試圖填充缺失值,去除雜訊、識別離群點、糾正資料中的不一致值)

缺失值處理方法:忽略元組(缺少類標號處理)、忽略屬性(乙個屬性的缺失值太多)、人工填寫(缺失值較少的情況)還有就是自動填充缺少值(以乙個全域性的常量填充、該屬性的平均值或者該屬性的眾數)

雜訊資料平滑:分箱的方法(通過考察其鄰居的值來平滑有序數值;一般步驟將數值排序,之後將數值分成若干相等的組,組中的資料採用平均值代替)。聚類的方法(可以很容易的去除離散點)還有就是回歸的方法

資料整合:將兩個或者多個資料來源中的資料放在乙個一致的資料儲存裝置中

資料變換:即將資料變成適合資料探勘的格式(平滑資料:去雜訊和離散點(方法:分箱、聚類、回歸分析)、聚集(對資料進行彙總)、資料泛化(用高層資料代替底層資料)、資料規範化(將屬性資料按照比例縮放)、屬性構造(按照已經有的屬性構造新的屬性)、資料離散化(將連續資料變成離散資料))

其中:資料規範化方法:最小最大規範化(x=(x-min)/(max-min)*(b-a)+a)將值轉化到a-b區間。z-score規範化:z=(x-e)/s 其中e為平均值,s為標準差。小數定標規範化:x=x/(10^j).

資料離散化:分為有監督和無監督離散化兩個大類。無監督離散化(等寬、等頻和基於聚類分析的離散化方法)有監督離散化(基於熵的離散化方法:概括起來就是對於連續的屬性,選擇具有最小熵的結點作為**點,遞迴上述步驟,直到符合某種標準)

資料規約:(大意使用編碼或者變換,達到資料壓縮的效果)

維度規約和特徵變換:(小波分析和主成分分析)

抽樣:(有放回簡單抽樣、無放回簡單抽樣、層次抽樣)概率的知識抽樣可以近似表示整個資料集,達到以小見大的效果

特徵選取:(從一組已知的特徵中選取,一部分具有代表性的特徵)主要方法:過濾的方法(在呼叫資料探勘演算法之前進行特徵選取)封裝的方法(把特徵選取作為評價的一部分)嵌入的方法(特徵選取作為資料探勘演算法的一部分存在)

下面介紹一種特徵選取搜尋策略:

逐步向前選擇(從空屬性集作為規約集的開始,確定原屬性中最好的屬性,並將它們新增到規約集中,在其後的每一次迭代中,都將剩下的原屬性集中最好的新增到該集合)

逐步向後刪除:由整個屬性集開始,逐步向後刪除最差的屬性

決策樹歸納方法:和構造決策樹的過程類似

特徵選取fcbf演算法:

輸入:訓練資料集s(f1,f2,f3,.....,fm,c),閥值o

輸出特徵子集f

for i=1 to m do

計算每個特徵fi與目標特徵c之間的相關性sim(fi,c) 若sim(fi,c)>=o,將fi新增到f

end for

將f中的特徵按照降序排列

for j=1 to m do

for i=j+1 to m do

計算兩兩特徵的相似度,若計算出的特性相似度大於與目標特徵的相似度,就將其從f中除去,直到f中所有的冗餘特徵都被除去

end for

其中變數x,y之間的互資訊mi(x,y)可以按照下面公式計算:mi(x,y)=h(x)-h(x|y)=h(y)-h(y|x)  h(x)為資訊熵的計算公式

sim(x,y)=2mi(x,y)/(h(x)+h(y))

相似性度量:

標稱屬性:相似度(相等為1,不相等為0)相異度(相等為0,不相等為1)

區間屬性:相異度(d=|x-y|)相似度(s=1/(1+d) )

序數屬性:相異度(屬性f有m個有序狀態,將屬性值x替換成相應的等級r,將相應的等級r做變換對映到區間【0,1】,之後可以採用任何一種距離公式計算差異程度)

比例屬性:計算比例屬性的方法:1:將比例屬性當做區間屬性來進行距離計算,2:將比例屬性看做連續的序數屬性進行處理3:利用變換將屬性的值轉化為間隔數值進行處理

物件之間的相似性度量:

資料探勘 資料處理

最近學校開了資料建模課程,根據學習內容做個小結。2 探索性資料分析eda 目的 熟悉資料集,了解資料集,對資料集進行驗證來確定所獲得資料集可以用於接下來的機器學習或者深度學習使用。了解變數間的相互關係以及變數與 值之間的存在關係。引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵...

資料探勘 資料處理概念

一 什麼是資料預處理?一般我們得到的資料會存在有缺失值 重複值等,在使用之前需要進行資料預處理。它是一系列對資料操作的統稱。資料預處理沒有標準的流程,通常針對不同的任務和資料集屬性的不同而不同。資料預處理的常用流程為 資料清洗 可以用來清楚資料中的雜訊,糾正不一致。資料整合 將資料由多個資料來源合併...

python 資料處理基礎

2 python 語法簡介 型別轉化 int x base 將x轉換為乙個整數 long x base 將x轉換為乙個長整數 float x 將x轉換到乙個浮點數 complex real imag 建立乙個複數 str x 將物件 x 轉換為字串 repr x 將物件 x 轉換為表示式字串 eva...