python庫 Pandas學習筆記

food_info = pandas.read_csv(「檔名」) 讀取csv檔案

print(type(food_info)) 顯示food_info的型別，csv檔案的型別是dataframe

print(food_info.dtypes) 顯示每一列的特徵儲存的是什麼型別，可以看到在csv檔案中，str型別被稱作object

food_info.head()顯示部分資料，預設前5條資料若是head(4)顯示前4行

food_info.tail() 顯示尾幾行

food_info.columns 顯示列名

food_info.shape 行*列

food_info.loc[0] 第乙個樣本的資料

ndb_col = food_info[「列名」] 取一列資料

若想取多列，則另column = [列名1，列名2]

col = food_info[column] ,這樣就取出了兩行

col_names = food_info.columns.tolist() 將每一列的列名提取出來做成list

ndb_col = food_info[「列名」] /1000 就是將該列資料全部除以1000

food_info[ 新列名] = alist 對dataframe新加入乙個列名，並給出他說對應的值

ndb_col = food_info[「列名」] .max() 找出一列的最大值

food_info.sort_values(「列名」，inplace= true) #給某一列的值排序

inplace判斷是新生成乙個dataframe還是在原基礎上改，預設是從小到大排序。若想從大到小排序，指令如下

food_info.sort_values(「列名」,inplace= true,ascending=false)

titanic資料集

age= titanic_survival[「age」]

age_is_null = pd.isnull(age) #判斷age裡的值是否缺失，返回的是布林值，以及與它對應的index,true為缺失

age_null_true = age[ age_is_null ] 返回age_is_null 裡為true的值，即缺失值，左邊有index,如下：

存在缺失值，會影響後續計算，需要處理一下。

若想去掉該樣本：

new_titanic_surval = titanic_survival.dropna(axis = 0,subset =[「age」,「***」])

若指定兩列某些樣本存在缺失值，則去掉該樣本

若需要計算的值，與兩列有關。例如分別計算三種等級船票的生還率：

passenger_survival = titanic_survival.pivot_table(index = 『pclass』 , values = 「survived」,aggfunc = np.mean) #預設就是求均值的操作

print(passenger_survival )

計算兩列以上的值

passenger_survival = titanic_survival.pivot_table(index = 『embarked』 , values = [「survived」,「fare」],aggfunc = np.sum)

def hundredth_row(column):

hundredth_item = colomn.loc[99]

return hundreth_item

當然，你可以定義任何你想處理的函式，比如根據年齡判斷是成年人還是小孩。

所用資料集如下：

series是dataframe裡的一行或者一列，可以這麼說，dataframe是由series構成的。

import pandas as pd

from pandas import series

fandango = pd.read_csv(「fandango_score_comparision.csv」)

series_film = fandango [「film」]# series_film就是series的type

series_rt = fandango[「rottentomatoes」]

film_names = series_film.values# film_names 的型別是ndarray,說明dataframe裡的結構是series，series裡面的結構是ndarray.pandas 是封裝在numpy之上的。

series_custom = series(series_rt, index = series_film )#series可以把str當作索引值

series_custom.sort_index()#按照series的鍵排序

series_custom.sort_values()#按照series的值排序

其實dataframe也是可以將str當作index的

fandango_film = fandango.set_index(『film』,drop= false)#將film當作索引值

python下pandas庫的學習

python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容 1 資料結構簡介 dataframe和series 2 資料索引index 3 利用pandas查詢資料 4 利用pandas的dataframes進行統計分析 5 利用pandas實現sql操作 6 利用p...

Python學習 Pandas庫基礎知識

總結完了numpy庫的基礎知識，當然不能少了pandas庫，pd庫是基於numpy的，它有兩種資料形式 series和dataframe。這篇文章總結的都是對dataframe格式的資料進行操作。series的操作和對ndarray格式的操作很像，可以參照numpy的處理方法。它們的不同有乙個博主寫...

pandas庫學習記錄

在接觸了一點python的資料分析後，發現有乙個眾人很推崇的pandas庫。據說，與numpy結合能夠實現許多強大的使資料分析功能。但其實在接觸一段時間之後，我發現，還是很難掌握這個庫的精髓。為了避免長時間遺忘，我把這一系列實踐記錄下來。引用 import pandas 一般都寫作 import p...

python庫 Pandas學習筆記

python下pandas庫的學習

Python學習 Pandas庫基礎知識

pandas庫學習記錄

相關推薦