food_info = pandas.read_csv(「檔名」) 讀取csv檔案
print(type(food_info)) 顯示food_info的型別,csv檔案的型別是dataframe
print(food_info.dtypes) 顯示每一列的特徵儲存的是什麼型別,可以看到在csv檔案中,str型別被稱作object
food_info.head()顯示部分資料,預設前5條資料若是head(4)顯示前4行
food_info.tail() 顯示尾幾行
food_info.columns 顯示列名
food_info.shape 行*列
food_info.loc[0] 第乙個樣本的資料
ndb_col = food_info[「列名」] 取一列資料
若想取多列,則另column = [列名1,列名2]
col = food_info[column] ,這樣就取出了兩行
col_names = food_info.columns.tolist() 將每一列的列名提取出來做成list
ndb_col = food_info[「列名」] /1000 就是將該列資料全部除以1000
food_info[ 新列名] = alist 對dataframe新加入乙個列名,並給出他說對應的值
ndb_col = food_info[「列名」] .max() 找出一列的最大值
food_info.sort_values(「列名」,inplace= true) #給某一列的值排序
inplace判斷是新生成乙個dataframe還是在原基礎上改,預設是從小到大排序。若想從大到小排序,指令如下
food_info.sort_values(「列名」,inplace= true,ascending=false)
titanic資料集
age= titanic_survival[「age」]
age_is_null = pd.isnull(age) #判斷age裡的值是否缺失,返回的是布林值,以及與它對應的index,true為缺失
age_null_true = age[ age_is_null ] 返回age_is_null 裡為true的值,即缺失值,左邊有index,如下:
存在缺失值,會影響後續計算,需要處理一下。
若想去掉該樣本:
new_titanic_surval = titanic_survival.dropna(axis = 0,subset =[「age」,「***」])
若指定兩列某些樣本存在缺失值,則去掉該樣本
若需要計算的值,與兩列有關。例如分別計算三種等級船票的生還率:
passenger_survival = titanic_survival.pivot_table(index = 『pclass』 , values = 「survived」,aggfunc = np.mean) #預設就是求均值的操作
print(passenger_survival )
計算兩列以上的值
passenger_survival = titanic_survival.pivot_table(index = 『embarked』 , values = [「survived」,「fare」],aggfunc = np.sum)
def hundredth_row(column):
hundredth_item = colomn.loc[99]
return hundreth_item
當然,你可以定義任何你想處理的函式,比如根據年齡判斷是成年人還是小孩。
所用資料集如下:
series是dataframe裡的一行或者一列,可以這麼說,dataframe是由series構成的。
import pandas as pd
from pandas import series
fandango = pd.read_csv(「fandango_score_comparision.csv」)
series_film = fandango [「film」]# series_film就是series的type
series_rt = fandango[「rottentomatoes」]
film_names = series_film.values# film_names 的型別是ndarray,說明dataframe裡的結構是series,series裡面的結構是ndarray.pandas 是封裝在numpy之上的。
series_custom = series(series_rt, index = series_film )#series可以把str當作索引值
series_custom.sort_index()#按照series的鍵排序
series_custom.sort_values()#按照series的值排序
其實dataframe也是可以將str當作index的
fandango_film = fandango.set_index(『film』,drop= false)#將film當作索引值
python下pandas庫的學習
python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容 1 資料結構簡介 dataframe和series 2 資料索引index 3 利用pandas查詢資料 4 利用pandas的dataframes進行統計分析 5 利用pandas實現sql操作 6 利用p...
Python學習 Pandas庫基礎知識
總結完了numpy庫的基礎知識,當然不能少了pandas庫,pd庫是基於numpy的,它有兩種資料形式 series和dataframe。這篇文章總結的都是對dataframe格式的資料進行操作。series的操作和對ndarray格式的操作很像,可以參照numpy的處理方法。它們的不同有乙個博主寫...
pandas庫學習記錄
在接觸了一點python的資料分析後,發現有乙個眾人很推崇的pandas庫。據說,與numpy結合能夠實現許多強大的使資料分析功能。但其實在接觸一段時間之後,我發現,還是很難掌握這個庫的精髓。為了避免長時間遺忘,我把這一系列實踐記錄下來。引用 import pandas 一般都寫作 import p...