padas是用於資料分析的最流行的python庫。它提供了高度優化的效能,後端源**純粹是用c或python。可以用來分析:series、dataframes。
series系列是在熊貓中定義的一維(1-d)陣列,可用於儲存任何資料型別。
**1:創作系列
# program to create series
# import panda library
import pandas as pd
# create series with data, and index
a = pd.series(data, index = index)
標量值可以是整值、字串
python字典可以是鍵,值對
ndarray
可以通過series的兩個屬性,index 和 value 來分別獲取索引和值
obj.index
out[5]: rangeindex(start=0, stop=4, step=1)
obj.values
out[7]: array([2, 9, 5, 6], dtype=int64)
**2:當資料報含標量值時
# program to create series with scalar values
# numeric data
data =[1, 3, 4, 5, 6, 2, 9]
# creating series with default index values
s = pd.series(data)
# predefined index values
index =['a', 'b', 'c', 'd', 'e', 'f', 'g']
# creating series with predefined index values
si = pd.series(data, index)
輸出量:
**3:當資料報含字典時
# program to create dictionary series
dictionary =
# creating series of dictionary type
sd = pd.series(dictionary)
輸出量:
**4:當資料報含ndarray時
# program to create ndarray series
# defining 2darray
data =[[2, 3, 4], [5, 6, 7]]
# creating series of 2darray
snd = pd.series(data)
輸出量:
series 索引的 name 和 值的 name(相當於這兩個向量的名字)
obj3.name
obj3.name="population"
obj3.index.name="ind"
obj3
out[23]:
indb 2.0
a 1.0
d nan
name: population, dtype: float64
dataframes是在熊貓中定義的由行和列組成的二維(2-d)資料結構。是乙個典型的**型資料,既有行索引,又有列索引。相當於乙個大字典,字典的鍵是列索引,字典的值是乙個series; 構成這些索引的每乙個值的series都是共用乙個 series 索引的。
**1:建立dataframe
# program to create dataframe
# import library
import pandas as pd
# create dataframe with data
a = pd.dataframe(data)
在這裡,資料可以是:
乙個或多個字典
乙個或多個系列
2d-numpy ndarray
**2:當資料是字典時
# program to create data frame with two dictionaries
# define dictionary 1
dict1 =
# define dictionary 2
dict2 =
# define data with dict1 and dict2
data =
# create dataframe
df = pd.dataframe(data)
輸出量:
dataframe 預設通過 列索引獲取乙個series;(在series中預設通過索引獲取乙個值)
df["popular"] 或者 df.popular
out[37]:
0 8
1 9
2 10
3 11
name: popular, dtype: int64
**3:當資料是序列時
# program to create dataframe of three series
import pandas as pd
# define series 1
s1 = pd.series([1, 3, 4, 5, 6, 2, 9])
# define series 2
s2 = pd.series([1.1, 3.5, 4.7, 5.8, 2.9, 9.3])
# define series 3
s3 = pd.series(['a', 'b', 'c', 'd', 'e'])
# define data
data =
# create dataframe
dfseries = pd.dataframe(data)
輸出量:
dataframe 通過 ix 間接獲取行向量,行向量也是乙個series,它的索引是原來df的列索引。
df.loc[2]
out[40]:
cities bj
year 2003
popular 10
name: 2, dtype: object
**4:當資料為2d-numpy ndarray時注:在建立2d陣列的dataframe時,必須維護乙個約束--2d陣列的維數必須相同。
# program to create dataframe from 2d array
# import library
import pandas as pd
# define 2d array 1
d1 =[[2, 3, 4], [5, 6, 7]]
# define 2d array 2
d2 =[[2, 4, 8], [1, 3, 9]]
# define data
data =
# create dataframe
df2d = pd.dataframe(data)
輸出量:
python統計excel利用pandans的分組
python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...
python入門乾貨 python基礎乾貨 01
1.編碼集 ascii 是最早的編碼 ascii值控制字元ascii值控制字元ascii值控制字元ascii值控制字元 nut space soha astxbb etxc ceotdd enqe eackff belggbs hhhti ilfjj vtkkff llcrm msonn siood...
python 函式式 panda 函式式
摘要 一提到程式設計正規化,很容易聯想到宗教的虔誠,每種宗教所表達信條都有一定合理性,但如果一直只遵循一種教條,可能也被讓自己痛苦不堪,程式設計正規化也是如此。案例1 案例一,摘抄來自一企業培訓材料,主要 邏輯是列印每課成績,並找出學生非f級別課程統計平均分數 class coursegrade 摘...