# 構建資料集
import pandas as pd
import numpy as np
n =20
dataset = pd.dataframe(
)# 顯示前五行
# 獲取所有元素的值 【返回numpy陣列】
dataset.values
# 獲取資料型別
dataset.dtypes
# 獲取行名
dataset.index #【返回index型別物件】
dataset.index.tolist(
)#【返回list物件】
# 獲取列名
dataset.columns #【返回index型別物件】
dataset.columns.tolist(
)#【返回list物件】
# 對列進行重新命名
dataset.columns =
['姓名'
,'年齡'
,'語文'
,'數學'
,'籍貫'
,'性別'
]# 檢視df前n條資料, 預設5條
df.head(n)
# 檢視df後n條資料, 預設5條
df.tail(n)
# 隨機檢視n條資料
df.sample(n)
# 檢視行數和列數
df.shape(
)# 檢視索引,資料型別和記憶體資訊
df.info(
)
總結:
通常情況下,使用loc
和iloc
索引,如果索引結果為一維,則返回series
物件;如果索引結果為二維,則返回dataframe
物件;
## 位置索引
# 獲取第一行第四列的元素 【返回python物件】
dataset.iloc[0,
4]# 獲取第二行,第
三、第四列的元素
# 注意:同python,最後乙個元素不取
dataset.iloc[1,
2:4]
#【返回series物件】
# 獲取第
三、四行,第一到第四列的元素
dataset.iloc[2:
4,0:
4]#【返回dataframe物件】
## 自定義索引
# 獲取math列
dataset[
'math'
]#【返回series】 或
dataset[
['math']]
#【返回dataframe】 或
dataset.loc[:,
'math'
]#【返回series】
# 獲取math, chinese列
dataset[
['math'
,'chinese']]
#【返回dataframe】 或
dataset.loc[:,
['math'
,'chinese']]
#【返回dataframe】
# 獲取序號為1的學生的資訊
# 注意:此處是序號為1,而不是第1個
dataset.loc[1,
:]#【返回series】
# 獲取序號為3的學生的性別
dataset.loc[3,
'***'
]#【返回python 物件】
# 判斷是否有來自jx省的
# 注意:後面應該加上.values!!!
'jx'
in dataset[
'province'
].values
# 獲取性別為m的學生的名字
dataset.loc[dataset[
'***']==
'm',
'name'
]# 獲取家鄉來自'jb'和'jx'的學生的年齡和性別
dataset.loc[dataset[
'province'
].isin(
['jb'
,'jx'])
,['age'
,'***'
]]
# 將series轉換為list
dataset[
'province'
].tolist(
)
panda資料分析
1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...
python資料分析筆記中panda 3
1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...