參考部落格原址:
用train_data = train_data.convert_objects(convert_numeric=true)即可
def
a(x,y):
print("%s : %s "%(x,y))
不同的索引
loc——通過行標籤索引行資料
iloc——通過行號索引行資料
ix——通過行標籤或者行號索引行資料(基於loc和iloc 的混合
print df.columns.size#列數df.shape[1]
print df.iloc[:,0].size#行數 3 df.shape[0]
統計某一列各個值得數量情況
area1_data['date'].value_counts()
(useful.loc[useful.values>16]).sort_index()
讀取文目錄下我所有檔案的名稱】path = os.listdir('data/')
print (path)
dataframe合併
//列拼接 axis不能少
pd_wind2 = pd.concat([pd_wind2,pd_wind_direction5], axis=1)
取前幾列
x=allelectornicsdata.ix[:,:-1]
離散資料onehot
1.pd.get_dummies(all_df['mssubclass'],prefix='mssubclass').head()
2.from sklearn.preprocessing import onehotencoder
dayofweek_ohe = onehotencoder(sparse=false).fit_transform(dataset[['dayofweek']])
pd_dayofweek = pd.dataframe(dayofweek_ohe,columns=['mon','tue','wed','thu','fri','sat','sun'])
pd_dayofweek.head()
#把所有離散值做one-hot處理
all_dummy_df = pd.get_dummies(dataset)
all_dummy_df
獲取datagrame的列名dataframe.columns.values.tolist()
統計某行或者某列數值出現的次數
我們可以用pandas庫自帶的統計值函式,這樣效率更高,**如下:
zero_col_count = dict(df[0].value_counts())#統計第0列元素的值的個數
three_row_count = dict(df.loc[3].value_counts())#統計第3行元素的值的個數
axis=1表示以dataframe的行輸入 用train_data = train_data.convert_objects(convert_numeric=true)即可#篩選某個值在某個列表中
df = df[df['subject_1'].isin([1, 2, 13, 18, 25])]
常用操作 增刪查改
官方文件 常用的sqlalchemy查詢過濾器 常用的sqlalchemy查詢執行器 eg 表定義 class users base tablename user id column integer,primary key true name column string 50 default 姓名 ...
panda之excel操作總結(個人總結)
收集了一些經濟資料,這個是關於excel的一部分總結 在特定位置插入列 data.insert 2 c 2 插入的列的位置 c 待插入列的列名 插入的值,這裡插入的是空值 data out 56 a b c01 2134 data.insert 0 d 1,2 data out 71 d a b c...
常用操作之增 刪 改 查
1 增 增加目錄命令 mkdir 對映 1.新建目錄名為dir1 eg mkdir dir1 2.一次建多個資料夾eg temp1,temp2,te mkdir temp1 temp2 te 3.新建父目錄,檔案已存在也不會報錯 eg mkdir p t1 t2 t3 增加檔案命令 touch 對映...