pandas是基於numpy的一種工具,該工具是為了解決資料分析任務而建立的。pandas納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法,是python的乙個資料分析包。pandas模組具有高效能、高效率和高水平,使之成為資料分析最有效的庫。
pandas的資料結構中,常用的有series和dataframe兩種1、series:一維陣列,與numpy中的一維array類似。二者與python基本的資料結構list也很相近。series如今能儲存不同種資料型別,字串、boolean值、數字等都能儲存在series中。
series與list的區別是:list中的元素可以是不同的資料型別,而series中則只允許儲存有相同的資料型別,這樣是為了更有效地的使用記憶體,提高運算效率。2、time- series:以時間為索引的series。
3、dataframe:二維的**型資料結構。很多功能與r中的data.frame類似。可以將dataframe理解為series的容器。
4、panel :三維的陣列,可以理解為dataframe的容器。
1、匯入資料集的語法為:
pd.read_excel(filename) #匯入excel格式檔案中的資料
pd.read_excel(filename) #匯入excel格式檔案中的資料
2、建立excel表
import pandas as pd #匯入pandas模組,命名為pd
a = pd.dataframe() #建立id列和user列
a = a.set_index('id') #以id為索引
print(a)
a.to_excel('d:\pandas\pytest.xlsx') #新建pytest.xlsx檔案,將以上資訊保持到該檔案中
print('成功啦!')
執行結果:
3、檢視資料框
data.info() #檢視資料框(data frame)的索引、資料型別及記憶體資訊
import pandas as pd
data = pd.read_excel('d:\pandas\pytest.xlsx')
data.info()
4、檢視資料框行與列:
data.shape #檢視資料框的行數和列數
import pandas as pd
data = pd.read_excel('d:\pandas\pytest.xlsx')
print(data.shape)
#執行結果:(3, 2)
5、檢視資料前n行、中間某幾行或後n行:
data.head(n) #檢視資料框的前n行data.tail(n) #檢視資料框的後n行
data.iloc[a:b,c:d] #檢視第a+1行到b行,c+1列到d列的資料
import pandas as pd
data = pd.read_excel('d:\pandas\pytest2.xlsx')
print(data)
print("前2行的資料為:")
print(data.head(2))
print("後1行的資料為:")
print(data.tail(1))
print("2、3行與2、3列交叉的資料為:")
print(data.iloc[1:3, 1:3])
1、檢視某一列的資料
data[col] #以陣列series的形式返回選取的列
import pandas as pd
data = pd.read_excel('d:\pandas\pytest2.xlsx')
print("檢視name列的資料")
print("檢視name列、age列的資料")
2、資料中非空值的處理
data.isnull() #檢查資料中空值出現的情況,並返回乙個布林值(true或false組成的列)
data.notnull() #檢視資料框中的非空值
data.dropna(axis = 1) #移除資料框中包含空值的列
data.fillna(x) #將資料框中的所有空值替換為x
import pandas as pd
data = pd.read_excel('d:\pandas\pytest3.xlsx')
print(data.fillna('變身'))
3、資料框中值的替換
import pandas as pd
data = pd.read_excel('d:\pandas\pytest4.xlsx')
data2 = data.replace('變身', '0')
data2.to_excel('d:\pandas\pytest4.xlsx')
print('ok')
#執行結果:ok
Python之資料分析(寶可夢資料分析)
在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...
python資料分析之Numpy
numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...
Python 資料分析之scipy
scipy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下面這些包 匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分,引數分...