## 建模前的資料準備, 數值變數進行標準化,離散變數標籤化
## df_data:dataframe型別資料
## label_name:目標變數名稱
## unique_id:資料集唯一標識
defdata_standarder
(df_data , label_name, unique_id)
:## 得到標註
label = df_data[label_name]
## 去掉標註和id
import copy
feature_x = copy.deepcopy(df_data.drop(
[unique_id , label_name]
, axis =1)
)##
o_index , c_index = distinguish_char_num(feature_x)
## 對數值型變數標準化
from sklearn.preprocessing import minmaxscaler , standardscaler , labelencoder , onehotencoder
## 對數值型變數進行標準化
col_lst_o = o_index
for col_name in col_lst_o:
feature_x[col_name]
= minmaxscaler(
).fit_transform(feature_x[col_name]
.values.reshape(-1
,1))
.reshape(1,
-1)[
0]## 對分類變數進行onehot 編碼
col_lst_c = c_index
for col_name in col_lst_c:
feature_x[col_name]
= labelencoder(
).fit_transform(feature_x[col_name]
)return feature_x , label
python怎麼對數字進行過濾
本文例項總結了python 如果想從乙個含有數字,漢字,字母的列表中濾除僅含有數字的字元,當然可以採取正規表示式來完成,但是有點太麻煩了,因此可以採用乙個比較巧妙的方式 1 正規表示式解決 import re l u 小明 xiaohong 12 adf12 14 for i in range le...
two steps 對數似然距離 數值變數計算
當已有了二步聚類法的訓練結果,怎麼固化到其他新樣本 按照上面的式子 對新的樣本進行類別判斷的時候,依然如同k means一樣,計算距離 然後選擇最近的類 作為新樣本的類別標記。上面的式子是計算2個類別之間的距離,有方差,而樣本作為單個,方差為0,由資料在處理前是經過對中方差單位化,所以類別和樣本之間...
Python對資料庫進行操作
步驟三 編寫python指令碼,下例只是做了個查詢 具體使用要結合你的需求進行對資料庫操作,然後對操作結果進行校驗和下部操作。usr bin python coding utf 8 import mysql.connector import mysqldb conn mysqldb.connect ...