資料探勘筆記

2022-09-21 20:54:17 字數 718 閱讀 7043

分類變數

分類變數可以分為有序和無序

無序:無程度之間的差別,如男女

有序:如小,中,大

分類、有序、定量變數...你清楚你的變數型別嗎?

無序可以直接用皮爾遜

有序就用斯皮爾曼相關係數計算關係

斯皮爾曼等級相關(spearman』s correlation coefficient for ranked data) - python風控模型的文章 - 知乎

原因:分類的變數,非等距變數,比如一者是另一者的5倍,但是對結果的影響不一定是對前者的五倍,要改寫為onehot編碼。

參考:什麼是虛擬變數?怎麼設定才正確?

用法官方文件

實際用法:

ordinal_columns = ['floor', 'rating']

for col in ordinal_columns:

dummies = pd.get_dummies(train[col], drop_first=false)

dummies = dummies.add_prefix("{}#".format(col))

train.drop(col, axis=1, inplace=true)

train = train.join(dummies)

劃分訓練集、測試集

要知道交叉驗證是個什麼東西

知乎-交叉驗證詳解

官方文件說明

資料探勘筆記

標籤 空格分隔 特徵提取 實習期間參加了ccf大資料比賽,總結期間用到的一些資料提取想法 alter變更有11種型別,將變更型別進行one hot encoding編碼,再統計每個型別的總量。統計時間區間內行為累積,比如統計某個企業 2,5,8,13,21,35 個月內的變更alter記錄數目 也稱...

HCIE資料探勘筆記 004資料探勘(入門)

資料探勘流程 1 spss的crisp dm模型 商業理解 資料理解 資料準備 建立模型 模型評估 模型實施 商業理解 不要把自己寫的太死 確定業務目標 評估指標 準確率等 專案可行性分析 已有資源 條件 目前風險等 確定挖掘目標 與上一條繫結 提出專案計畫 計畫 工具都要包含在內 例子 電信流失使...

資料探勘筆記(二)

資料探勘常用的方法 利用資料探勘進行資料分析常用的方法主要有分類 回歸分析 聚類 關聯規則 特徵 變化和偏差分析 web頁挖掘等,它們分別從不同的角度對資料進行挖掘。分類。分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定...