資料探勘 探索性資料分析 EDA (補充)

2021-10-03 02:53:25 字數 3311 閱讀 2761

去敏資料已經在之前有過介紹了,指為了保護資料,消除特徵的意義。而對這類資料就無法根據業務知識,進行特徵的建立。另外,我們得到的資料一般是原始資料通過變換得到的,變換的方式有很多種。本文主要針對通過乘除對資料進行縮放,然後通過加減對資料進行平移的這種資料還原。

以下是從網上找到的乙個案例:

首先介紹下,這個資料的特徵都是x1,x2,x3…這種,並沒有實際的含義,而我們需要對資料進行探索。從資料的數值來看,也無法得知具體是什麼。

資料是經過處理得到的,而我們要做的就是對它進行反向處理。比較常見的是平移,即加/減資料。因此,取資料唯一值unique(),然後利用用下一行資料減去上一行diff(),這樣可以消除平移。

縮放是對資料進行乘/除。我們需要找到縮放的係數。經過上步可看到0.04332…這個數有很大的嫌疑。因此,除去它。得到結果如下:

之前是在差值下找到了平移距離縮放係數。接下來對原始資料進行處理。處理後的資料如下,這樣看就比較舒服。而一般處理到這也結束了,想要知道資料的具體含義,一是根據資料的數值和資料賽題,進行猜測。另外還有以下一種方法,通過資料遺漏的資訊,得到資料的實際意義。

通過觀察資料的取值,可以看到1968。而這大概率是年份。這樣我們就知道這列資料是跟年份有關的。說是資料漏洞,這可能是最開始輸入資料時,輸入錯的乙個值。比如輸入了0,而它轉換成了年份,別的資料是輸入正確的,轉為了別的數值。所以說,這是根據資料的錯誤得到的有用資訊。

這樣把年份加上後,我們就得到了想要的資料內容。

以上介紹的只是一種處理方式,雖然有一定的依據,但看著可信度不是那麼高,即所有的資料都能這麼處理嗎?答案當然是不能。不過,它可以作為處理去敏資料的一種手段,有的時候可能會有奇效。

單因素分析中包括:異常值分析,對比分析,結構分析,分布分析。

2.1.1 異常值分析

這個在之前的文章資料預處理中有過說明,不再贅述。

2.1.2 對比分析

2.1.2.1 比較什麼

2.1.2.2 怎麼比較

空間:不同城市,不同公司,不同部門之間的比較。

經驗與計畫:拿現在的與之間歷史上發生的事進行比較判斷。

不用記清這麼多的比較的事例,主要要對資料有對比的想法,包括時間,空間,結構佔比,強度等。通過對比,發現新知。

2.1.3 結構分析

主要記住動態即時間。

2.1.4 分布分析2.2.1 多因子分析

多因子分析主要包括以下內容:

這些分析方法都是統計學中的內容。

線性回歸

通過判斷係數,來得到各個特徵的重要性。也可用線性方程進行**。這個會在後續模型選擇中進行說明。

決定係數:r^2,判斷擬合好壞。

殘差不相關(dw檢驗):dw=2,殘差不相關。4正相關,0負相關。

pca與奇異值分解

這個主要用來做特徵的降維工作,在特徵工程中會說明。

2.2.1 復合分析

復合分析主要包括以下幾個方面:

交叉分析     

資料分組與鑽取

相關分析

因子分析

聚類分析

回歸分析

2.2.1.1 交叉分析

兩兩資料進行對比。

2.2.1.2 資料分組與鑽取

鑽取:改變維的層次,變換分析的粒度。

向下鑽取資料展開,分析細節。知道每個班的分數,想看各個班男女的分數。

向上鑽取彙總,分組資料。知道每個人的分數,想看每個班的平均分是多少。或日,月,年的時間過程。

連續資料分組

2.2.1.3 相關分析

多分類:如果是定序的(low,midder,high),可以直接編碼成0,1,2進行corr計算。

可以使用熵,進行離散資料的計算。熵:用來計算不確定性的值。樣本分佈的越均勻,資訊熵就越大。0.5/0.5.

:h(x)如果樣本都屬於乙個類別,那麼熵就是0.樣本分佈越均勻,資訊熵就越大。因此可以找熵最大的點,進行分類。

條件熵h(y|x)

熵增益(互資訊)i(x,y)=:h(x)-h(x|y)對於分類數目過多的特徵,有不正確的偏向。不具有歸一性。

熵增益率:i(x,y)/h(y),不對稱。

相關性:corr(x,y) = i(x,y)/sqrt(h(x)*h(y))

gini係數:gini(d)=1-sum((ck/d)^2).d:關注目標的標度;ck:相對於關注的目標,要對比的屬性。取gini最小的點為分割點。gini越小,不純度越小,兩邊的分類純度就更好。

關於熵的簡要說明,具體說明熵的含義會在後續決策樹中提到,這裡先有個印象,可以用熵來計算相關性。

2.2.1.4 因子分析

因子分析,也叫成分分析,從多個屬性變數中分析共性

因子分析是一種特徵選擇的方法,後續在特徵工程中進行說明。

2.2.1.5 聚類分析、回歸分析

這兩個也會在後續模型選擇時提到……

本次對去敏資料的一般處理方法和eda的相關知識進行了補充說明。其中的很多方法都是在特徵工程中使用的,而其實特徵工程也是深入了解資料的一步,與eda之間相輔相成。

這篇文章更多的是我對之前學習的乙個總結(感覺寫的很一般…)。裡面很多東西沒有進行詳細說明,會在之後的文章特徵工程和模型選擇上進行詳細說明。

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

探索性資料EDA

import numpy as np import seaborn as sns import matplotlib.pyplot as plt from pandas import dataframe import pandas as pd from sklearn.datasets import...