第一次實踐資料探勘。虛心學習。
基於機器學習的資料分析模型的建立,主要分為以下幾步:資料獲取->資料預處理->模型選擇->資料統一化->模型建立->模型結果分析
首先要對資料進行評估,資料的大小來決定使用工具。
本資料為金融資料,目的為**貸款使用者是否會逾期。
匯入資料
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()
刪除無關的特徵
data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'unnamed: 0', 'id_name'], axis=1)
data1.info()
預設值處理(以下參考88080917**)
print(df.isnull().sum())
count=0
for i in range(85):
if df.isnull().sum()[i]>250:
count=count+1
print(count)
print(max(fd.isnull().sum()))
剔除,填充,合併
data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = true)
data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)
data3=data3.fillna(data3.mode())
reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)
from sklearn import preprocessing
citydata = preprocessing.labelbinarizer().fit_transform(reg_data)
citydataframe = pd.dataframe(citydata, columns=["一線城市","三線城市","二線城市","其它城市","境外"])
data3.reset_index(drop=true, inplace=true)
data2.reset_index(drop=true, inplace=true)
citydataframe.reset_index(drop=true, inplace=true)
dataset = pd.concat([data2, citydataframe, data3], axis=1)
5.將資料集切分為訓練集與測試集
train, test = train_test_split(dataset, test_size=0.3, random_state=2018)
資料探勘專案(二)
特徵工程 2天 目標 對資料特徵進行衍生和進行特徵挑選。包括但不限於 特徵衍生,特徵挑選。分別用iv值和隨機森林等進行特徵選擇 以及你能想到特徵工程處理。特徵選擇 feature selection 也稱特徵子集選擇 feature subset selection fss 或屬性選擇 attrib...
資料探勘專案(五)
目標任務 模型調優 使用網格搜尋法對5個模型進行調優 調參時採用五折交叉驗證的方式 並進行模型評估,記得展示 的執行結果。網格搜尋是一種調參手段 窮舉搜尋 在所有候選的引數選擇中,通過迴圈遍歷,嘗試每一種可能性,表現最好的引數就是最終的結果。其原理就像是在陣列裡找最大值。為什麼叫網格搜尋?以有兩個引...
資料探勘 如何做資料探勘專案
筆者鼓勵致力於從事資料行業的去參加一些人工智慧,機器學習的培訓,然後有人說 其實很多企業不喜歡培訓出來的人,認為培訓不貼近實際,紙上談兵。我倒不這麼看,其實即使在企業內乾資料探勘的人,很多也出不了活,這個不僅僅涉及業務和技術,更是管理上的問題。任正非說,華為最後能留下來的財富只有兩樣 一是管理框架 ...