資料探勘實戰（一）資料分析

資料集準備

status表示標籤，但是它作為乙個特徵維度混入到特徵列表中，要先將它找出來賦給標籤，並按照約定規則將資料分為訓練集和測試集

import pandas as pd
from sklearn.model_selection import train_test_split
data = pd.read_csv('venv\data.csv', encoding = 'gb18030')
print(data.shape)
print(data['status'])
y=data['status']
x=data.drop('status',axis=1)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)

資料清洗

（1）無關值去除

bank_card_no一列的所有特徵值全部為「卡號1」，認為對最終的任務沒有意義，將這一列去除。

（2）缺失值處理

「student_feature」一列的特徵值除了1就是na，根據資料分布，判定其他的缺失值大概率為1，因此該特徵意義不大，也將這一列去除。

「cross_consume_count_last_1_month」一列有一部分缺失值，其他值有幾種不同的值，不便推測出缺失值，因此，將該特徵值為空的一條資料刪除。

for i in range(len(x)):
if np.isnan(data['cross_consume_count_last_1_month'][i]):
x = x.drop(i)
y=y.drop(i)

如1580行，大部分為缺失值，則這一條資料意義不大，將此行刪除。

（3）文字值處理

reg_preference_for_trad特徵只有「一線城市」」二線城市「」三線城市「」境外「四種，使用one-hot編碼

對於id_name，全是不同的文字，但發現名字與編號一一對應，可以先將名字一列刪除，處理完成後再用查表方式對應找到id_name.

python資料分析與挖掘實戰資料探勘基礎

從大量資料包括文字中挖掘出隱含的未知的對決策有潛在價值的關係模式和趨勢，並用這些知識和規則建立用於決策支援的模型，提高性決策支援的方法工具和過程，就是資料探勘它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程，是統計學資料庫技術和人工智慧技術的綜合。1.定義挖...

大資料分析挖掘方法實戰

慧智匯 17xuee直播課程之大資料分析挖掘方法實戰案例主題大資料分析挖掘方法實戰案例主講公司慧智匯科技收費標準 200 人中文演講人鄧亞明，香港上市it公司資深研究員講師簡介鄧老師在資訊科技方面有超過18年的經驗。主要研究方向包括企業架構和資料分析。專長有企業架構資料模型分析和...

Python資料分析與挖掘實戰挖掘建模

常用的分類與演算法 1回歸模型分類 1線性回歸自變數因變數線性關係，最小二乘法求解 2非線性回歸自變數因變數非線性關係，函式變換為線性關係，或非線性最小二乘方法求解 3logistic回歸因變數一般有1和0兩種取值，將因變數的取值範圍控制再0 1範圍內 4嶺回歸自變數之間具有多重共線性 5...

資料探勘實戰（一） 資料分析

python資料分析與挖掘實戰 資料探勘基礎

大資料分析挖掘方法實戰

Python資料分析與挖掘實戰 挖掘建模

相關推薦

資料探勘實戰（一）資料分析

python資料分析與挖掘實戰資料探勘基礎

Python資料分析與挖掘實戰挖掘建模