import pandas as pd
#series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件:
s = pd.series([1,2,3.0,'abc'])
s1 = pd.series(data=[1,3,5,7],index = ['a','b','x','y'])
#通過下標獲取資料
s1['a']
#series的name屬性
s1.name='test_series'
#pandas 最重要的乙個功能是,它可以對不同索引的物件進行算術運算。
# 在將物件相加時,結果的索引取索引對的並集。自動的資料對齊在不重疊的索引處引入空值,
# 預設為 nan。
foo = pd.series()
foobar = pd.series()
barfoo + bar
#dataframe 是乙個**型的資料結構 ,類似於資料庫的表
data =
df = pd.dataframe(data)
#獲取行名
df = pd.dataframe(data,index=['one','two','three','four','five'],columns=['year','state','pop','debt'])
#獲取index
df.index
#獲取列名
df.columns
#刪除,返回乙個新物件,原物件不會被改變
df.drop('one')
#pandas 也支援通過 obj[::] 的方式進行索引和切片,以及通過布林型陣列進行過濾。
#換成 'c' 這樣的字串索引時,結果就包含了這個邊界元素。
dfdf[:2]
df[:'three']
#dataframe 物件的標準切片語法為:.ix[::,::]。ix 物件可以接受兩套切片,分別為行(axis=0)和列(axis=1)的方向:
#對於行的切片和列的切片
df.ix[:2,:2]
#排序操作
#series 的 sort_index(ascending=true) 方法可以對 index 進行排序操作,ascending 引數用於控制公升序或降序,預設為公升序。
df.sort_index(by='year')
df.sort_index(by=['year','pop'])
df.sort_index(axis=1)
df.min()
#跳過nan值
df.mean()
panda資料分析
1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...
python資料分析筆記中panda 3
1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...