2. 刪除、賦值
3. 資料框的其他操作
從r語言轉戰python的小夥伴們,經常會遇到資料格式轉換上的問題。與r語言常用資料框格式不同,python以陣列矩陣儲存資料為主。但是python也是相容資料框格式,需要使用到pandas包。
下面介紹幾種資料框的常用操作。
df.columns # 提取列名
df.index # 提取行名
選擇某一行/某幾行
df[0:
1]df[0:10
]
按照條件提取符合條件的行,如選擇列名為name且在b向量裡面的元素的所在行
df[df[
'name'
].isin(b)
]
按照列名提取某一列或某幾列
df[
'probe'
]df[
['probe'
,'protein'
]]
也能按照列的順序提取
df.iloc[:,
[1,3
,5]]
在很多時候,我們想要同時對行和列按照某種規則進行提取,這就要使用上面說到的iloc
df.iloc[
[i],
[j]]
df.iloc[2:
10,[1
,2,5
]]df.iloc[df.index.isin([1
,10,20
]), df.columns.isin([1
,10,20
])]
df.iloc[
[i],
[j]]
.values
df['a'
].values
df[1:2
].values
df.drop(index =
[100])
# 刪去行名為100的行
df.drop(columns =
['a'])
# 刪除列名為a的列
很多時候我們讀取的資料表頭包含中文名,或是長列名,在後續資料處理過程中是非常麻煩的,需要將
df.rename(columns=
, inplace =
true
)
在應用深度學習或是機器學習方法建立分類模型前,往往需要對target進行修改,如類的合併或是類名的修改等,即對值進行重新賦值,減少**的類的數目。
df[
'type'
]= df[
'type'
].replace(
['a'
,'b'
,'c'
,'d'],
['high'
,'high'
,'normal'
,'low'])
df['type'
]= df[
'type'
].fillna(
'low'
)
df.t
df.
min().
min(
)
da.corr(
'pearson'
)data.corr(
'kendall'
)data.corr(
'spearman'
)
最後介紹乙個非常使用的函式,groupby。會sql的小夥伴們會覺得這個功能非常的熟悉,特別是表的聯立、分組統計時非常見效/
df.groupby(
'a')
panda資料分析
1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...
PANDA資料格式
這個key也可以用作找的路徑 object list 分支主題 pos 姿態 standing walking sitting riding held 在襁褓中斷嬰兒 unsure ridding type bicycle rider motorcycle rider tricycle rider ...
學習Python大資料處理模組Pandas
適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...