DC學院學習筆記(十一) 資料預處理 資料清理

2021-09-21 12:30:46 字數 3415 閱讀 1855

終於到了資料儲存與預處理的最後一講了,感覺講得還不錯!下面來看看資料的預處理吧!

官方文件

pandas速查手冊中文版

seaborn是基於matplotlib的繪相簿,可以製作更多更美觀的圖形,如example gallery中也可以看到很多關於影象的示例。這個繪相簿可以很好地輔助我們對資料進行第一步的觀察

更多請看:

seaborn tutorial

如python記錄時間的方式,不能夠直接實現減運算,就需要進行轉換

一般在分析資料時進行操作

這裡還是用iris資料集舉例

import pandas

users = pandas.read_csv("iris.csv")

## 讀取前幾條

users.head()

idsepallengthcm

sepalwidthcm

petallengthcm

petalwidthcm

species01

5.13.5

1.40.2

iris-setosa12

4.93.0

1.40.2

iris-setosa23

4.73.2

1.30.2

iris-setosa34

4.63.1

1.50.2

iris-setosa45

5.03.6

1.40.2

iris-setosa

users.tail()
idsepallengthcm

sepalwidthcm

petallengthcm

petalwidthcm

species

145146

6.73.0

5.22.3

iris-virginica

146147

6.32.5

5.01.9

iris-virginica

147148

6.53.0

5.22.0

iris-virginica

148149

6.23.4

5.42.3

iris-virginica

149150

5.93.0

5.11.8

iris-virginica

#檢視平均值,標準差等,只針對數字的屬性

users.describe()

idsepallengthcm

sepalwidthcm

petallengthcm

petalwidthcm

count

150.000000

150.000000

150.000000

150.000000

150.000000

mean

75.500000

5.843333

3.054000

3.758667

1.198667

std43.445368

0.828066

0.433594

1.764420

0.763161

min1.000000

4.300000

2.000000

1.000000

0.100000

25%38.250000

5.100000

2.800000

1.600000

0.300000

50%75.500000

5.800000

3.000000

4.350000

1.300000

75%112.750000

6.400000

3.300000

5.100000

1.800000

max150.000000

7.900000

4.400000

6.900000

2.500000

#檢視資料的屬性,150條,每條有6個屬性

users.shape

(150, 6)
users.loc[1:3,'sepalwidthcm']
1    3.0

2 3.2

3 3.1

name: sepalwidthcm, dtype: float64

#去除有nan的資料

users['sepallengthcm'].dropna()[1:5]

1    4.9

2 4.7

3 4.6

4 5.0

name: sepallengthcm, dtype: float64

#用seaborn做乙個簡單的視覺化

import seaborn

#因為我用的是jupyter notebook,所以要加上這句話

%matplotlib inline

#箱線圖

#柱狀圖

#異常資料處理:篩選petalwidthcm<2及petalwidthcm>0.5

users_new=users[users["petalwidthcm"]<2]

users_new=users_new[users_new["petalwidthcm"]>0.5]

#再重新看一下柱狀圖

(c c 學習筆記十一)預處理命令

預處理是指在進行編譯的第一遍掃瞄 語法掃瞄和語法分析 之前所做的工作。預處理是c語言的乙個重要功能,它由預處理器負責完成。當對乙個原始檔進行編譯時,系統將自動引用預處理程式對程式中的預處理部分作處理,處理完畢後自動進入對源程式的編譯。c語言提供了多種預處理功能,如巨集定義 檔案包含 條件編譯等。一....

機器學習處理離散資料 機器學習一 資料預處理

為了能更系統的整理到學的知識進行乙個整理,也作為乙個自我監督,接下來就把較為系統的知識點都整理到部落格上。相應的 也會同步到github上。下面所有的 都是使用python寫的,資料預處理主要用到的是sklearn.preprocessing模組 sklearn.apachecn.org cn 0....

DC學院學習筆記(十五) 驗證型資料分析

1.隨機變數 是試驗結果的函式,是定義在樣本空間 omega 上的實值函式 x x omega 隨機變數一般用大寫拉丁字母或小寫希臘字母來表示 2.概率分布 關於隨機變數,有乙個非常值得關心的特性就是概率分布 概率 是乙個在0 1之間的實數,度量隨機事件發生的可能性,通常用於來量化某些不確定性命題 ...