資料探勘步驟: 資料準備 資料探索 模型建立 模型評估 模型部署
資料探勘方法分類: 關聯 回歸 分類 聚類 ** 診斷
資料準備: 資料收集 資料質量分析 資料預處理
資料探索: 資料視覺化 資料降維 資料統計 衍生變數
關聯方法: apriori fp-growth
回歸方法: 一元回歸 多元回歸 逐步回歸 logistic回歸
分類方法: 樸素貝葉斯 svm支援向量機 神經網路 決策樹 knn近鄰 邏輯斯梯模型 分類分析 判別分析
聚類方法: k-means聚類 層次聚類 神經網路 模糊c均值 高斯混合聚類
**方法: 灰色** 馬爾科夫**
診斷方法:
離群點監測: 基於統計 基於距離 基於密度 基於聚類
時間序列方法: 平穩時間序列方法 季節指數 時間序列模型
智慧型優化方法: 遺傳演算法 模擬退火演算法 蟻群演算法
機器學習:
資料探勘 = 機器學習 + 資料倉儲
模式識別 = 機器學習
統計學習 ≈ 機器學習
計算機視覺 = 影象處理 + 機器學習
語音識別 = 語音處理 + 機器學習
自然語言處理 = 文字處理 + 機器學習
機器學習方法:監督學習、無監督學習:
監督學習:
回歸演算法 神經網路 ann 支援向量機 svm
無監督學習: 聚類演算法 降維演算法
大資料分析方法:
大資料,小分析:olap,多維分析思想
大資料,大分析:資料探勘與機器學習
流式分析:事件驅動架構
查詢分析:nosql分析
機器學習的子類---》深度學習
機器學習的父類---》人工智慧
資料探勘筆記
標籤 空格分隔 特徵提取 實習期間參加了ccf大資料比賽,總結期間用到的一些資料提取想法 alter變更有11種型別,將變更型別進行one hot encoding編碼,再統計每個型別的總量。統計時間區間內行為累積,比如統計某個企業 2,5,8,13,21,35 個月內的變更alter記錄數目 也稱...
資料探勘筆記
分類變數 分類變數可以分為有序和無序 無序 無程度之間的差別,如男女 有序 如小,中,大 分類 有序 定量變數.你清楚你的變數型別嗎?無序可以直接用皮爾遜 有序就用斯皮爾曼相關係數計算關係 斯皮爾曼等級相關 spearman s correlation coefficient for ranked ...
HCIE資料探勘筆記 004資料探勘(入門)
資料探勘流程 1 spss的crisp dm模型 商業理解 資料理解 資料準備 建立模型 模型評估 模型實施 商業理解 不要把自己寫的太死 確定業務目標 評估指標 準確率等 專案可行性分析 已有資源 條件 目前風險等 確定挖掘目標 與上一條繫結 提出專案計畫 計畫 工具都要包含在內 例子 電信流失使...