標籤(空格分隔): 特徵提取
實習期間參加了ccf大資料比賽,總結期間用到的一些資料提取想法
alter變更有11種型別,將變更型別進行one-hot encoding編碼,再統計每個型別的總量。
統計時間區間內行為累積, 比如統計某個企業 [2, 5, 8, 13, 21, 35]個月內的變更alter記錄數目
也稱為 bucketization:對連續的特徵做離散化。(以 age 這樣的特徵為例,你可以把所有年齡拆分成 n 段, 0-18 歲、18-40 歲、40-70 歲等,然後把個別的年齡,對應到某⼀段,假設 26 歲是對應到第⼆個 bucket,那新特徵的值就是 2。) 比賽應用:對某個企業所投資機構的存活時間做binning,然後再統計不同的存活時間裡的機構數目,對應的就是統計了某企業所投資的機構中存活時間0~1年的有多少。
對一些特徵求和, 求最大最小值等
資料探勘筆記
分類變數 分類變數可以分為有序和無序 無序 無程度之間的差別,如男女 有序 如小,中,大 分類 有序 定量變數.你清楚你的變數型別嗎?無序可以直接用皮爾遜 有序就用斯皮爾曼相關係數計算關係 斯皮爾曼等級相關 spearman s correlation coefficient for ranked ...
HCIE資料探勘筆記 004資料探勘(入門)
資料探勘流程 1 spss的crisp dm模型 商業理解 資料理解 資料準備 建立模型 模型評估 模型實施 商業理解 不要把自己寫的太死 確定業務目標 評估指標 準確率等 專案可行性分析 已有資源 條件 目前風險等 確定挖掘目標 與上一條繫結 提出專案計畫 計畫 工具都要包含在內 例子 電信流失使...
資料探勘筆記(二)
資料探勘常用的方法 利用資料探勘進行資料分析常用的方法主要有分類 回歸分析 聚類 關聯規則 特徵 變化和偏差分析 web頁挖掘等,它們分別從不同的角度對資料進行挖掘。分類。分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定...