資料探勘實戰之金融風控第二課 探索性資料分析

2021-10-09 14:18:11 字數 484 閱讀 5258

1、讀取檔案:data = pd.read_csv()

data.shape檢視檔案的行和列

data_train.columns檢視資料列名
data_train.info()檢視每列的基本資訊,資料型別
data_train.describe()檢視類別的統計特徵
(data_train.isnull().sum()/len(data_train)).to_dict()檢視資料的缺失值
檢視訓練集測試集中特徵屬性只有一值的特徵

one_value_fea = [col for col in data_train.columns if data_train[col].nunique() <= 1]

pfr = pandas_profiling.profilereport(data_train)

pfr.to_file("./example.html")儲存分析結果

第二課 檢索資料

第二課 檢索資料 2.1 select語句 關鍵字 keyword 作為sql組成部分的保留字。關鍵字不能用作表或列的名字。要理解sql是一種語言而不是乙個應用程式。想選擇什麼,以及從什麼地方選擇。2.2 檢索單個列 輸入 select prod name from products 上述語句利用s...

第二課 資料的藝術

資料結構起源 計算機從解決數值計算問題到解決生活中的問題 現實生活中的問題涉及不同個體間的複雜聯絡 需要在電腦程式中描述生活中個體間的聯絡 資料結構主要研究非數值計算程式問題中的操作物件以及它們之間的關係 關鍵概念 資料 程式的操作物件,用於描述客觀事物 資料的特點 可以輸入到計算機 可以被電腦程式...

資料探勘實戰之金融風控第一課 賽題理解

第二步 分析賽題資料 共有47個特徵 id 唯一標識,沒有用 數值特徵 12個 loanamnt貸款金額 interestrate貸款利率 installment分期付款金額 employmenttitle就業職稱 行業相關?annualincome年收入 dti債務收入比 openacc借款人信用...