python資料分析4

2021-10-23 12:50:10 字數 1812 閱讀 5275

為啥要用python中的pandas庫進行資料分析,用excel不可以嗎?不可以,excel處理上萬條資料時通常會宕機或者出錯,python不會有這種問題。相信鯉魚學長,在學習乃至日後工作中,pandas庫將會風靡相當長一段時間。

在資料處理中我們經常用到視覺化,視覺化可以直觀地識別資料中的趨勢。我們康康世界人口各年度的預期壽命,**如下:

import pandas as pd

import matplotlib.pyplot as plt

df=pd.

read_csv

(r'c:\users\wly\desktop\python資料分析\pandas_for_everyone-master\data\gapminder.tsv'

,sep=

'\t'

)global_yearly_life_expectancy=df.

groupby

('year')[

'lifeexp'].

mean()

print

(global_yearly_life_expectancy)

global_yearly_life_expectancy.

plot()

plt.

show

()

結果如下:

在這裡面出現了幾個問題,我給大家記錄了一下,避免踩坑。

pip install matplotlib
在這之前,我的**是這樣寫的:

import pandas as pd

import matplotlib

df=pd.

read_csv

(r'c:\users\wly\desktop\python資料分析\pandas_for_everyone-master\data\gapminder.tsv'

,sep=

'\t'

)global_yearly_life_expectancy=df.

groupby

('year')[

'lifeexp'].

mean()

print

(global_yearly_life_expectancy)

global_yearly_life_expectancy.

plot

()

注意:

1、這裡也可以選擇不把結果列印出來。

2、python裡路徑的寫法,我這(r』***』)是一種,不同的版本,不同的電腦不一樣,當你檢查**還是報錯的話,就搜尋那個錯誤就可以找到不少解決方法。

資料分析(4)

資料質量分析 主要針對缺失值 異常值 不一致的值 重複資料以及含有特殊符號 異常值的查明箱型圖統計 利用箱型圖對資料異常值進行查明 import os path os.path.abspath 當前所處資料夾的絕對路徑 import pandas as pd catering sale data c...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...

python資料分析

陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...