python資料分析 Pandas

2021-07-31 14:17:47 字數 1282 閱讀 1701

import pandas as pd

#series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件:

s = pd.series([1,2,3.0,'abc'])

s1 = pd.series(data=[1,3,5,7],index = ['a','b','x','y'])

#通過下標獲取資料

s1['a']

#series的name屬性

s1.name='test_series'

#pandas 最重要的乙個功能是,它可以對不同索引的物件進行算術運算。

# 在將物件相加時,結果的索引取索引對的並集。自動的資料對齊在不重疊的索引處引入空值,

# 預設為 nan。

foo = pd.series()

foobar = pd.series()

barfoo + bar

#dataframe 是乙個**型的資料結構 ,類似於資料庫的表

data =

df = pd.dataframe(data)

#獲取行名

df = pd.dataframe(data,index=['one','two','three','four','five'],columns=['year','state','pop','debt'])

#獲取index

df.index

#獲取列名

df.columns

#刪除,返回乙個新物件,原物件不會被改變

df.drop('one')

#pandas 也支援通過 obj[::] 的方式進行索引和切片,以及通過布林型陣列進行過濾。

#換成 'c' 這樣的字串索引時,結果就包含了這個邊界元素。

dfdf[:2]

df[:'three']

#dataframe 物件的標準切片語法為:.ix[::,::]。ix 物件可以接受兩套切片,分別為行(axis=0)和列(axis=1)的方向:

#對於行的切片和列的切片

df.ix[:2,:2]

#排序操作

#series 的 sort_index(ascending=true) 方法可以對 index 進行排序操作,ascending 引數用於控制公升序或降序,預設為公升序。

df.sort_index(by='year')

df.sort_index(by=['year','pop'])

df.sort_index(axis=1)

df.min()

#跳過nan值

df.mean()

panda資料分析

1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...

python資料分析筆記中panda 3

1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...