終於到了資料儲存與預處理的最後一講了,感覺講得還不錯!下面來看看資料的預處理吧!官方文件
pandas速查手冊中文版
seaborn是基於matplotlib的繪相簿,可以製作更多更美觀的圖形,如example gallery中也可以看到很多關於影象的示例。這個繪相簿可以很好地輔助我們對資料進行第一步的觀察
更多請看:
seaborn tutorial
如python記錄時間的方式,不能夠直接實現減運算,就需要進行轉換
一般在分析資料時進行操作
這裡還是用iris資料集舉例
import pandas
users = pandas.read_csv("iris.csv")
## 讀取前幾條
users.head()
idsepallengthcm
sepalwidthcm
petallengthcm
petalwidthcm
species01
5.13.5
1.40.2
iris-setosa12
4.93.0
1.40.2
iris-setosa23
4.73.2
1.30.2
iris-setosa34
4.63.1
1.50.2
iris-setosa45
5.03.6
1.40.2
iris-setosa
users.tail()
idsepallengthcm
sepalwidthcm
petallengthcm
petalwidthcm
species
145146
6.73.0
5.22.3
iris-virginica
146147
6.32.5
5.01.9
iris-virginica
147148
6.53.0
5.22.0
iris-virginica
148149
6.23.4
5.42.3
iris-virginica
149150
5.93.0
5.11.8
iris-virginica
#檢視平均值,標準差等,只針對數字的屬性
users.describe()
idsepallengthcm
sepalwidthcm
petallengthcm
petalwidthcm
count
150.000000
150.000000
150.000000
150.000000
150.000000
mean
75.500000
5.843333
3.054000
3.758667
1.198667
std43.445368
0.828066
0.433594
1.764420
0.763161
min1.000000
4.300000
2.000000
1.000000
0.100000
25%38.250000
5.100000
2.800000
1.600000
0.300000
50%75.500000
5.800000
3.000000
4.350000
1.300000
75%112.750000
6.400000
3.300000
5.100000
1.800000
max150.000000
7.900000
4.400000
6.900000
2.500000
#檢視資料的屬性,150條,每條有6個屬性
users.shape
(150, 6)
users.loc[1:3,'sepalwidthcm']
1 3.0
2 3.2
3 3.1
name: sepalwidthcm, dtype: float64
#去除有nan的資料
users['sepallengthcm'].dropna()[1:5]
1 4.9
2 4.7
3 4.6
4 5.0
name: sepallengthcm, dtype: float64
#用seaborn做乙個簡單的視覺化
import seaborn
#因為我用的是jupyter notebook,所以要加上這句話
%matplotlib inline
#箱線圖
#柱狀圖
#異常資料處理:篩選petalwidthcm<2及petalwidthcm>0.5
users_new=users[users["petalwidthcm"]<2]
users_new=users_new[users_new["petalwidthcm"]>0.5]
#再重新看一下柱狀圖
(c c 學習筆記十一)預處理命令
預處理是指在進行編譯的第一遍掃瞄 語法掃瞄和語法分析 之前所做的工作。預處理是c語言的乙個重要功能,它由預處理器負責完成。當對乙個原始檔進行編譯時,系統將自動引用預處理程式對程式中的預處理部分作處理,處理完畢後自動進入對源程式的編譯。c語言提供了多種預處理功能,如巨集定義 檔案包含 條件編譯等。一....
機器學習處理離散資料 機器學習一 資料預處理
為了能更系統的整理到學的知識進行乙個整理,也作為乙個自我監督,接下來就把較為系統的知識點都整理到部落格上。相應的 也會同步到github上。下面所有的 都是使用python寫的,資料預處理主要用到的是sklearn.preprocessing模組 sklearn.apachecn.org cn 0....
DC學院學習筆記(十五) 驗證型資料分析
1.隨機變數 是試驗結果的函式,是定義在樣本空間 omega 上的實值函式 x x omega 隨機變數一般用大寫拉丁字母或小寫希臘字母來表示 2.概率分布 關於隨機變數,有乙個非常值得關心的特性就是概率分布 概率 是乙個在0 1之間的實數,度量隨機事件發生的可能性,通常用於來量化某些不確定性命題 ...