資料探勘實戰(三) 資料建模

2021-09-26 02:31:49 字數 2181 閱讀 2650

根據前兩次任務的資料探索結果,進行學習模型的訓練,嘗試多種模型,這些模型暫未調參,後面再補上

y=data['status']

x=data.drop('status',axis=1)

# 把資料集拆分成訓練集和測試集

seed = 7

test_size = 0.33

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=test_size, random_state=seed)

from sklearn.preprocessing import standardscaler

sc=standardscaler()

sc.fit(x_test)

x_train_std=sc.transform(x_train)

x_test_std=sc.transform(x_test)

邏輯回歸

具體演算法原理見前面的博文:

from sklearn.linear_model import logisticregression

#訓練model=logisticregression(c=1e5)

model.fit(x_train_std, y_train)

# 對測試集做**

y_pred = model.predict(x_test_std)

決策樹

具體演算法原理見前面博文:

from sklearn.tree import decisiontreeclassifier

model=decisiontreeclassifier()

model.fit(x_train_std, y_train)

# 對測試集做**

y_pred = model.predict(x_test_std)

svm

具體演算法原理見前面博文:

from sklearn.svm import svc

model=svc()

model.fit(x_train_std, y_train)

# 對測試集做**

y_pred = model.predict(x_test_std)

隨機森林

具體演算法原理見前面博文:

from sklearn.ensemble import randomforestclassifier

model=randomforestclassifier()

model.fit(x_train_std, y_train)

# 對測試集做**

y_pred = model.predict(x_test_std)

xgboost

具體演算法原理見前面博文:

from xgboost import xgbclassifier

# 擬合xgboost模型

model = xgbclassifier()

model.fit(x_train, y_train)

# 對測試集做**

y_pred = model.predict(x_test)

注:xgb演算法能自動處理缺失值,具體原因我研究一下再補上

gbdt

具體演算法原理見前面博文:

from sklearn.ensemble.gradient_boosting import gradientboostingclassifier

model=gradientboostingclassifier()

model.fit(x_train, y_train)

# 對測試集做**

y_pred = model.predict(x_test)

adaboost

具體演算法原理見前面博文:

from sklearn.ensemble import adaboostclassifier

model=adaboostclassifier()

model.fit(x_train, y_train)

# 對測試集做**

y_pred = model.predict(x_test)

Python資料分析與挖掘實戰 挖掘建模

常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...

資料探勘建模過程概覽

從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模型和趨勢,並用這些知識和規律建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘 它利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。包含利用分類...

資料探勘 建模調參

線性回歸,模型決策樹模型 gbdt模型,xgboost模型 lightgbm模型 簡單的線性回歸,可以用sklearn from sklearn.linear model import linearregression model linearregression normalize true mo...