pandas10分鐘入門,可以檢視官網:10 minutes to pandas
也可以檢視更複雜的cookbook
常規匯入方式:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ser1 = pd.series(range(10,15),index=list('abcde'))
print(ser1)
# 下標和索引等同
print(ser1['a'])
print(ser1[0])
輸出:a 10
b 11
c 12
d 13
e 14
dtype: int64
1010
取連續多個資料時,下標取值不包含結束位置,索引切片包括結束位置
print(ser1['a':'d'])
print(ser1[0:3])
輸出:a 10
b 11
c 12
d 13
dtype: int64
a 10
b 11
c 12
dtype: int64
取多個資料、條件篩選(布林索引)
# 注意裡面是乙個列表
print(ser1[[0,1,3]])
# 布林索引
print(ser1[(ser1>12)&(ser1<15)])
dataframe是二維標記資料結構。 您可以將其程式設計客棧視為電子**或sql表,或series物件。 它通常是最常用的pandans物件。 像series一樣,dataframe接受許多不同種類的輸入:
df1 = pd.dataframe(np.random.randint(10,50,(3,程式設計客棧4)), - index=list('abc'),columns=list('abcd'))
取單行或單列資料,取單個資料
# 列取值,取出的是乙個series物件
print(df1['a'])
print(df1['a'].values)
# 取出一行資料的某一行資料,也就是單個資料
print(df1['a']['b']) # 這兩個一樣
print(df1['a'][1])
取不連續多列,取連續多列(預設不支程式設計客棧持連續,需要高階索引)
# 取不連續多列
print(df1[['a','c']])
行索引,可以直接切片,但是預設不能不連續多行取值,下標同理
print('行索引取值##############')
print(df1['a':'a'])
# 取連續多行就是df1['a':'c']
高階索引(花式索引)
一般情況用於dataframe,這裡直接略過series
loc標籤索引
df1 = pd.dataframe(np.random.randint(10,50,(5,4)), index=list('abcde'),columns=list('abcd'))
# 取單行,型別是series
print(df1.loc['a'])
print(type(df1.loc['a']))
# 取連續多行,型別是dataframe
print(df1.loc['a':'c'])
# 如果沒有index索引就用下標,可以取連續多行連續多列
print(df1.loc['a':'d','a':'c'])
# 取不連續多行不連續多列
print(df1.loc[['a','c'],['a','c']])
iloc 位置索引
iloc是下標和lo用法一樣,但是下標索引左閉右開,loc是包括最後一位
# dataframe
print(df1.iloc[0:2, 0]) # 注意和df1.loc['a':'c', 'a']的區別
print(df1.loc['a':'c', 'a'])
ix 標籤與位置混合索引
博主使用的pandas 0.24.2版本已經棄用.ix了(warning但還能使用),所以也就不寫了
增加資料12
增加一行資料
1.df1.loc[『d'] = [1,2,3,4,5] 2.df1.loc[『d'] = [np.random.randint(10,20)]
增加一列資料
df1.
panda資料分析
1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...
python資料分析筆記中panda 3
1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...