一、資料探勘的過程可以分成以下 6 個步驟。
1. 商業理解:資料探勘不是我們的目的,我們的目的是更好地幫助業務,所以第一步我們
要從商業的角度理解專案需求,在這個基礎上,再對資料探勘的目標進行定義。
2. 資料理解:嘗試收集部分資料,然後對資料進行探索,包括資料描述、資料質量驗證
等。這有助於你對收集的資料有個初步的認知。
3. 資料準備:開始收集資料,並對資料進行清洗、資料整合等操作,完成資料探勘前的準
備工作。
4. 模型建立:選擇和應用各種資料探勘模型,並進行優化,以便得到更好的分類結果。
5. 模型評估:對模型進行評價,並檢查構建模型的每個步驟,確認模型是否實現了預定的
商業目標。
6. 上線發布:模型的作用是從資料中找到金礦,也就是我們所說的「知識」,獲得的知識
需要轉化成使用者可以使用的方式,呈現的形式可以是乙份報告,也可以是實現乙個比較
複雜的、可重複的資料探勘過程。資料探勘結果如果是日常運營的一部分,那麼後續的
監控和維護就會變得重要。
二、資料探勘的十大演算法
為了進行資料探勘任務,資料科學家們提出了各種模型,在眾多的資料探勘模型中,國際
權威的學術組織 icdm (the ieee international conference on data mining)評選出
了十大經典的演算法。
l 分類演算法:c4.5,樸素貝葉斯(***** bayes),svm,knn,adaboost,cart
l 聚類演算法:k-means,em
l 關聯分析:apriori
l 連線分析:pagerank
三、資料探勘的數學原理
1. 概率論與數理統計
2. 線性代數
3. 圖論
4. 最優化方法
資料探勘 筆記 閱讀之資料探勘比賽基本流程
乾貨 kaggle 資料探勘比賽經驗分享 資料分析,資料清洗,特徵工程,模型訓練和驗證等四個大的模組 離散值 目標變數的分布 離散值 某個id上面不平衡 變數之間的分布和相關度,發現高相關和共線性的特徵 預處理 特徵缺失值的處理 連續值 偏正態分佈用均值代替,保持資料均值 長尾分布用中值代替,避免受...
資料探勘的流程
資料探勘環境 資料探勘是指乙個完整的過程,該過程從大型資料庫中挖掘先前未知的,有效的,可實用的資訊,並使用這些資訊做出決策或豐富知識.資料探勘環境可示意如下圖 7.2資料探勘過程圖 下圖描述了資料探勘的基本過程和主要步驟 資料探勘的基本過程和主要步驟 7.3 資料探勘過程工作量 在資料探勘中被研究的...
資料探勘流程
下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...