import pandas
#pandas 資料預處理非常很好使用
檢視資料
[pandas詳細說明]
)#讀取.csv檔案 輸入絕對路徑,同檔案可以相對路徑
print
(type
(food_info)
)#資料型別 dataframe 有許多行列組成 每一行或列交series
print
(food_info.dtypes)
#包含幾種的資料型別結構 字元(str) object 整型 int64 浮點型 float64
print
(food_info.head())
#head預設顯示前五條資料
first_row = food_info.head(1)
#顯示前一行
print
(first_row)
print
(food_info.tail(2)
)#顯示後2行
print
(food_info.columns)
#列印每列的抬頭
print
(food_info.shape)
#(3,4)
#取資料
print
(food_info.loc[0]
)#第0行所有資料
print
(food_info.loc[0:
2])#切片取資料
type_data = food_info[
"type"
]#第一列的名稱 取出type列資料
print
(type_data)
columns =
["type"
,"owner"
]#n列製表 定位兩個列名
print
(food_info[columns]
)#尋找以er結尾的列
col_names = food_info.columns.tolist(
)#轉成列表 拿到每個列對應的title
print
(col_names)
g_columns =
for c in col_names:
if c.endswith(
"er"):
gg_df = food_info[g_columns]
print
(gg_df)
# 和numpy一樣進行加減乘除
print
(food_info[
"data_time"]/
100)
food_info[
'contry']=
['chian'
,'chian'
,'china'
]# 新加入一列數值 保持數量上一樣
print
(food_info.shape)
#排序操作
food_info.sort_values(
'price'
, inplace=
true
, ascending=
true
)# 預設進行從小到大的排序,對內部進行操作
print
(food_info[
'price'])
food_info.sort_values(
'price'
, inplace=
true
, ascending=
false
)# 降序操作
print
(food_info[
'price'])
# 資料預處理
data1 = food_info[
'price'
]data_is_null = pandas.isnull(data1)
#判斷是否有nan
print
(data_is_null)
#bool 可以當成索引
print
(data1[data_is_null]
)#輸出所有的nan
print
(len
(data[data_is_null]))
good_data = food_info[
'price'
][data_is_null ==
false
]mean_data =
sum(good_data)
/len
(good_data)
print
(mean_data)
# 對應於type中的三個型別 各自對應**的平均值多少
type_mean = food_info.pivot_table(index=
'type'
, values=
'price'
, aggfunc=np.mean)
print
(type_mean)
type_mean = food_info.pivot_table(index=
'type'
, values=
['price'
,'data_time'])
#預設求均值
print
(type_mean)
print
(food_info.dropna(axis=
0, subset=
['price'
,'data_time'])
)#去掉兩組資料中nan的資料
#定位到具體值
print
(food_info.loc[3,
'price'])
#拿出第四行關於price的值
#new_data = food_info.sort_values(
'price'
)new_data_idd = new_data.reset_index(drop=
true
)#重新排序後丟掉原來的索引值
#定義新函式重新加進去
defone_row
(column)
:'''
return one row values
:param column:
:return:
'''one_values = column.loc[1]
return one_values
one_value = food_info.
(one_row)
print
(food_info.loc[0,
:])print
(one_value)
#price_data = food_info[
'price'
]#series
price_data_value = price_data.values #ndarray
學習Python大資料處理模組Pandas
適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...
python統計excel利用pandans的分組
python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...
python機器 python機器學習
熱詞系列 打卡 mark一下,以後看 每天打卡學習 1 python 基礎 bv1lt4y1u7un 2 python 高階 bv1jz411b7dh 3 python 資料庫 bv1pg4y1a7a7 4 python gui與坦克大戰 bv1je411f72o 5 python numpy bv...