這份資料集是金融資料(非原始資料,已經處理過了),我們要做的是**貸款使用者是否會逾期。**中 「status」 是結果標籤:0表示未逾期,1表示逾期。
data_all = pd.
read_csv
('data_all.csv'
)
x_train,x_test,y_train,y_test =
train_test_split
(x,y,test_size=
0.3,random_state=
2018
)
#匯入包
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import logisticregression
from sklearn.svm import linearsvc
from sklearn import tree
#載入資料
data_all = pd.
read_csv
('data_all.csv'
)print
("資料行列數"
,data_all.shape)
#資料分析
print
(data_all.
head()
)#表頭
print
(data_all.
describe()
)#基本統計量
#檢視每列是否有缺失值
print
(data_all.
isnull()
.sum()
)#劃分資料集
#特徵是除去「status」列的所有值
feature =
[x for x in data_all.columns if x not in [
'status']]
x = data_all[feature]
#'status'列是標籤
y = data_all[
'status'
]x_train,x_test,y_train,y_test =
train_test_split
(x,y,test_size=
0.3,random_state=
2018
)#構建模型
#1.邏輯回歸
lr =
logisticregression
(random_state=
2018
)lr.
fit(x_train,y_train)
#2.svm
svc =
linearsvc
(random_state=
2018
)svc.
fit(x_train,y_train)
#3.tree
dt = tree.
decisiontreeclassifier
(random_state=
2018
)dt.
fit(x_train,y_train)
#評價三種模型在測試集的表現
lr_acc = lr.
score
(x_test,y_test)
svc_acc = svc.
score
(x_test,y_test)
dt_acc = dt.
score
(x_test,y_test)
print
("logisticregressiom acc: %f, svm acc: %f, tree acc: %f"
%(lr_acc,svc_acc,dt_acc)
)
logisticregressiom acc:
0.748423
, svm acc:
0.748423
, tree acc:
0.684653
一周演算法實踐day2 整合模型構建
使用之前的資料data all.csv 在程式編寫完之後進行執行會出現多個警告 deprecationwarning the truth value of an empty array is ambiguous.returning false,but in future this will resu...
MySQL一周從入門到精通Day1
實戰操作 日期 時間 字串 包括 建立,修改,刪除 建立 表名,欄位名,字段型別 mysql語法 create temporary table if not exists table name create definition,table options 可選 示例 create table co...
一周演算法專案實踐(四)
使用網格搜尋法對7個模型進行調優 調參時採用五折交叉驗證的方式 並進行模型評估 import pandas as pd import numpy as np from sklearn.model selection import train test split from sklearn.prepr...