#繪製直方圖
sns.distplot(df['dependent variable']);
#資料偏度和峰度
print("skewness: %f"%df['dependent variable'].skew())
print("kurtosis: %f"%df['dependent variable'].kurt())
#因變數與數值型變數關係
#繪製散點圖,檢視與變數的關係
df.plot.scatter(x=var,y=depvar)
#因變數與類別型變數關係
#繪製箱線圖,檢視趨勢
sns.boxplot(x= ,y= ,data= )
#相關係數矩陣
corrmat = df.corr()
#熱圖sns.heatmap(corrmat)
#因變數以及相關變數彼此之間的散點圖
sns.set()
cols=[var......]
sns.pairplot(df[cols])
plt.show()
缺失資料是否具有普遍性?
缺失資料是否有律可循?
我們需要保證缺失資料的處理不會出現偏離或者隱藏任何難以忽視的真相
#將每個變數的缺失佔比排序
total = df.isnull().sum().sort_values(ascending=false)
percent = (df.isnull().sum()/df.isnull.count).sort_values(ascending=false)
missing_data = pd.concat([tol,percent],axis=1,keys=['total','percent'])
print(missing_data.head(number))
#當有15%的資料缺失時,應該刪除改變量,並認為該變數應該不存在
單因素分析的關鍵是建立閾值,定義乙個觀察者為異常值。我們對資料進行正態化,均值為0,方差為1。
scaled = standardscaler().fit_transform(df['dependent variable'][:,np.newaxis]#標準化
low_range = scaled[scaled[:,0].argsort()[:k]#取前k個
high_range = scaled[scaled[:,0].argsort()[-k:]#取後k個
畫出散點圖,檢視離群值,刪除它
data.plot.scatter(x=var, y='dependent variable');
1.正態性:
#直方圖——峰值和偏度
#正態概率圖——資料分布應緊密跟隨正態分佈對角線
sns.distplot(df['dependent variable'],fit=norm)
res = stats.probplot(df['dependent variable'],plot=plt)
#可用對數變化解決不不跟隨正太分布對角線的問題
df['dependent variable'] = np.log(df['dependent variable'])
2.同方差性:
#繪製散點圖檢視
plt.scatter(df_train['var'],df_train['dependent variable']);
3.虛擬變數
#將類別型變數轉化為虛擬變數
df = pd.get_dummies(df)
這主要是多元技術的應用,資料處理可以有很多種方法,博主也正在努力學習中。 Python資料分析 資料預處理
資料預處理主要包括 資料清洗 資料整合 資料變換和資料規約。資料清洗主要是刪除原始資料中的無關資料 重複資料,平滑噪音資料,篩選掉和挖掘主題無關的資料,處理缺失值和異常值。處理缺失值資料方法有三類 刪除記錄 資料插補和不處理。其中資料插補方法如下 1 均值 中數值 眾數插補 根據屬性型別,用均值 中...
資料分析之資料特徵分析(二)
接上篇 資料分析之資料特徵分析 一 繪製房屋朝向直方圖 x len r cx plt.figure num 1,figsize 12 4 plt.grid true plt.bar p for p in range x r cx 頻率 width 0.8,color k alpha 0.5 plt....
Python資料分析與處理 一
目錄 前言 為了幫助廣大考生和家長了解高考歷年的錄取情況,很多 都彙總了各省市的錄取控制分數線,為廣大考生填報志願提供參考。因受多種因素影響,每年的分數線或多或少會有一些變動。採集北程式設計客棧京2006 2019年的資訊。使用python的pandas庫完成以下資料分析。包含三部分內容 從 爬取,...