pandas 資料歸一化以及行刪除例程
#coding:utf8
import pandas as pd
import numpy as np
from pandas import series,dataframe
# 如果有id列,則需先刪除id列再進行對應操作,最後再補上
# 統計的時候不需要用到id列,刪除的時候需要考慮
# delete row
def row_del(df, num_percent, label_len = 0):
#print list(df.count(axis=1))
col_num = len(list(list(df.values)[1])) - label_len # -1為考慮帶標籤
if col_num<0:
print 'error'
#print int(col_num*num_percent)
return df.dropna(axis=0, how='any', thresh=int(col_num*num_percent))
# 如果有字串型別,則報錯
# data normalization -1 to 1
# label_col: 不需考慮的類標,可以為字串或字串列表
# 數值型別統一到float64
def data_normalization(df, label_col = ):
lab_len = len(label_col)
print label_col
if lab_len>0:
df_temp = df.drop(label_col, axis = 1)
df_lab = df[label_col]
print df_lab
else:
df_temp = df
max_val = list(df_temp.max(axis=0))
min_val = list(df_temp.min(axis=0))
mean_val = list((df_temp.max(axis=0) + df_temp.min(axis=0)) / 2)
nan_values = df_temp.isnull().values
row_num = len(list(df_temp.values))
col_num = len(list(df_temp.values)[1])
for rn in range(row_num):
#data_values_r = list(data_values[rn])
nan_values_r = list(nan_values[rn])
for cn in range(col_num):
if nan_values_r[cn] == false:
df_temp.values[rn][cn] = 2 * (df_temp.values[rn][cn] - mean_val[cn])/(max_val[cn] - min_val[cn])
else:
print 'wrong'
for index,lab in enumerate(label_col):
df_temp.insert(index, lab, df_lab[lab])
return df_temp
# 建立乙個帶有缺失值的資料框:
df = pd.dataframe(np.random.randn(5,3), index=list('abcde'), columns=['one','two','three'])
df.ix[1,:-1]=np.nan
df.ix[1:-1,2]=np.nan
df.ix[0,0]=int(1)
df.ix[2,2]='abc'
# 檢視一下資料內容:
print '\ndf1'
print df
print row_del(df, 0.8)
print '-------------------------'
df = data_normalization(df, ['two', 'three'])
print df
print df.dtypes
print (type(df.ix[2,2]))
pandas 資料歸一化以及行刪除例程的方法
如下所示 coding utf8 import pandas as pd import numpy as np from pandas import series,dataframe 如果有id列,則需先刪除id列再進行對應操作,最後再補上 統計的時候不需要用到id列,刪除的時候需要考慮 delet...
pandas學習(四) 資料的歸一化
歡迎加入python學習 667279387 pandas學習 一 資料的匯入 pandas學習 二 雙色球資料分析 pandas學習 三 nab球員薪資分析 pandas學習 四 資料的歸一化 歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。主要是為...
pandas歸一化某一列 pandas技巧彙總
dataframe reindex和reset index區別 reset index的作用是重新設定dataframe的index,範圍為0 len df df pd.dataframe df2 pd.dataframe print df n df print df2 n df2 df x df,...