資料集準備
status表示標籤,但是它作為乙個特徵維度混入到特徵列表中,要先將它找出來賦給標籤,並按照約定規則將資料分為訓練集和測試集
import pandas as pd
from sklearn.model_selection import train_test_split
data = pd.read_csv('venv\data.csv', encoding = 'gb18030')
print(data.shape)
print(data['status'])
y=data['status']
x=data.drop('status',axis=1)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)
資料清洗
(1)無關值去除
bank_card_no一列的所有特徵值全部為「卡號1」,認為對最終的任務沒有意義,將這一列去除。
(2)缺失值處理
「student_feature」一列的特徵值除了1就是na,根據資料分布,判定其他的缺失值大概率為1,因此該特徵意義不大,也將這一列去除。
「cross_consume_count_last_1_month」一列有一部分缺失值,其他值有幾種不同的值,不便推測出缺失值,因此,將該特徵值為空的一條資料刪除。
for i in range(len(x)):
if np.isnan(data['cross_consume_count_last_1_month'][i]):
x = x.drop(i)
y=y.drop(i)
如1580行,大部分為缺失值,則這一條資料意義不大,將此行刪除。
(3)文字值處理
reg_preference_for_trad特徵只有「一線城市」」二線城市「」三線城市「」境外「四種,使用one-hot編碼
對於id_name,全是不同的文字,但發現名字與編號一一對應,可以先將名字一列刪除,處理完成後再用查表方式對應找到id_name.
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...
大資料分析挖掘方法實戰
慧智匯 17xuee直播課程之大資料分析挖掘方法實戰案例 主題 大資料分析挖掘方法實戰案例 主講公司 慧智匯科技 收費標準 200 人 中文演講人 鄧亞明,香港上市it公司資深研究員 講師簡介 鄧老師在資訊科技方面有超過18年的經驗。主要研究方向包括企業架構和資料分析。專長有企業架構 資料模型分析和...
Python資料分析與挖掘實戰 挖掘建模
常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...