Python資料分析pandas模組用法例項詳解

2022-09-27 06:54:10 字數 2256 閱讀 5086

pandas10分鐘入門,可以檢視官網:10 minutes to pandas

也可以檢視更複雜的cookbook

常規匯入方式:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

ser1 = pd.series(range(10,15),index=list('abcde'))

print(ser1)

# 下標和索引等同

print(ser1['a'])

print(ser1[0])

輸出:a    10

b    11

c    12

d    13

e    14

dtype: int64

1010

取連續多個資料時,下標取值不包含結束位置,索引切片包括結束位置

print(ser1['a':'d'])

print(ser1[0:3])

輸出:a    10

b    11

c    12

d    13

dtype: int64

a    10

b    11

c    12

dtype: int64

取多個資料、條件篩選(布林索引)

# 注意裡面是乙個列表

print(ser1[[0,1,3]])

# 布林索引

print(ser1[(ser1>12)&(ser1<15)])

dataframe是二維標記資料結構。 您可以將其程式設計客棧視為電子**或sql表,或series物件。 它通常是最常用的pandans物件。 像series一樣,dataframe接受許多不同種類的輸入:

df1 = pd.dataframe(np.random.randint(10,50,(3,程式設計客棧4)), - index=list('abc'),columns=list('abcd'))

取單行或單列資料,取單個資料

# 列取值,取出的是乙個series物件

print(df1['a'])

print(df1['a'].values)

# 取出一行資料的某一行資料,也就是單個資料

print(df1['a']['b']) # 這兩個一樣

print(df1['a'][1])

取不連續多列,取連續多列(預設不支程式設計客棧持連續,需要高階索引)

# 取不連續多列

print(df1[['a','c']])

行索引,可以直接切片,但是預設不能不連續多行取值,下標同理

print('行索引取值##############')

print(df1['a':'a'])

# 取連續多行就是df1['a':'c']

高階索引(花式索引)

一般情況用於dataframe,這裡直接略過series

loc標籤索引

df1 = pd.dataframe(np.random.randint(10,50,(5,4)), index=list('abcde'),columns=list('abcd'))

# 取單行,型別是series

print(df1.loc['a'])

print(type(df1.loc['a']))

# 取連續多行,型別是dataframe

print(df1.loc['a':'c'])

# 如果沒有index索引就用下標,可以取連續多行連續多列

print(df1.loc['a':'d','a':'c'])

# 取不連續多行不連續多列

print(df1.loc[['a','c'],['a','c']])

iloc 位置索引

iloc是下標和lo用法一樣,但是下標索引左閉右開,loc是包括最後一位

# dataframe

print(df1.iloc[0:2, 0]) # 注意和df1.loc['a':'c', 'a']的區別

print(df1.loc['a':'c', 'a'])

ix 標籤與位置混合索引

博主使用的pandas 0.24.2版本已經棄用.ix了(warning但還能使用),所以也就不寫了

增加資料12

增加一行資料

1.df1.loc[『d'] = [1,2,3,4,5] 2.df1.loc[『d'] = [np.random.randint(10,20)]

增加一列資料

df1.

panda資料分析

1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...

python資料分析筆記中panda 3

1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...