資料探勘筆記 01

2021-09-07 05:42:02 字數 953 閱讀 4054

資料探勘步驟:  資料準備  資料探索  模型建立  模型評估  模型部署

資料探勘方法分類:  關聯  回歸  分類  聚類  **  診斷

資料準備:  資料收集  資料質量分析  資料預處理

資料探索:  資料視覺化  資料降維  資料統計  衍生變數

關聯方法:  apriori  fp-growth

回歸方法:  一元回歸  多元回歸  逐步回歸  logistic回歸

分類方法:  樸素貝葉斯  svm支援向量機  神經網路  決策樹  knn近鄰  邏輯斯梯模型  分類分析  判別分析

聚類方法:  k-means聚類  層次聚類  神經網路  模糊c均值  高斯混合聚類

**方法:  灰色**  馬爾科夫**

診斷方法:  

離群點監測:   基於統計   基於距離   基於密度   基於聚類

時間序列方法:  平穩時間序列方法  季節指數  時間序列模型  

智慧型優化方法:  遺傳演算法  模擬退火演算法  蟻群演算法

機器學習:

資料探勘 = 機器學習 + 資料倉儲  

模式識別 = 機器學習  

統計學習 ≈ 機器學習   

計算機視覺 = 影象處理 + 機器學習  

語音識別 = 語音處理 + 機器學習  

自然語言處理 = 文字處理 + 機器學習

機器學習方法:監督學習、無監督學習:  

監督學習:   

回歸演算法   神經網路 ann   支援向量機 svm  

無監督學習:   聚類演算法   降維演算法  

大資料分析方法:  

大資料,小分析:olap,多維分析思想  

大資料,大分析:資料探勘與機器學習  

流式分析:事件驅動架構  

查詢分析:nosql分析

機器學習的子類---》深度學習

機器學習的父類---》人工智慧

資料探勘筆記

標籤 空格分隔 特徵提取 實習期間參加了ccf大資料比賽,總結期間用到的一些資料提取想法 alter變更有11種型別,將變更型別進行one hot encoding編碼,再統計每個型別的總量。統計時間區間內行為累積,比如統計某個企業 2,5,8,13,21,35 個月內的變更alter記錄數目 也稱...

資料探勘筆記

分類變數 分類變數可以分為有序和無序 無序 無程度之間的差別,如男女 有序 如小,中,大 分類 有序 定量變數.你清楚你的變數型別嗎?無序可以直接用皮爾遜 有序就用斯皮爾曼相關係數計算關係 斯皮爾曼等級相關 spearman s correlation coefficient for ranked ...

HCIE資料探勘筆記 004資料探勘(入門)

資料探勘流程 1 spss的crisp dm模型 商業理解 資料理解 資料準備 建立模型 模型評估 模型實施 商業理解 不要把自己寫的太死 確定業務目標 評估指標 準確率等 專案可行性分析 已有資源 條件 目前風險等 確定挖掘目標 與上一條繫結 提出專案計畫 計畫 工具都要包含在內 例子 電信流失使...