資料探勘的最佳學習清單

2021-09-05 09:16:16 字數 2681 閱讀 3802

我列了乙個資料探勘的知識清單,分別是資料探勘的基本流程、十大演算法和數學原理,以此來開啟我們的學習之旅。

以下是我對這篇文章的總結圖,要是沒時間的話,可以先看這張「資料探勘的知識清單」。

資料探勘的過程可以分成以下 6 個步驟:

1.商業理解:資料探勘不是我們的目的,我們的目的是更好地幫助業務,所以第一步我們要從商業的角度理解專案需求,在這個基礎上,再對資料探勘的目標進行定義。

2.資料理解:嘗試收集部分資料,然後對資料進行探索,包括資料描述、資料質量驗證等。這有助於你對收集的資料有個初步的認知。

3.資料準備:開始收集資料,並對資料進行清洗、資料整合等操作,完成資料探勘前的準備工作。

4.模型建立:選擇和應用各種資料探勘模型,並進行優化,以便得到更好的分類結果。

5.模型評估:對模型進行評價,並檢查構建模型的每個步驟,確認模型是否實現了預定的商業目標。

6.上線發布:模型的作用是從資料中找到金礦,也就是我們所說的「知識」,獲得的知識需要轉化成使用者可以使用的方式,呈現的形式可以是乙份報告,也可以是實現乙個比較複雜的、可重複的資料探勘過程。資料探勘結果如果是日常運營的一部分,那麼後續的監控和維護就會變得重要。

為了進行資料探勘任務,資料科學家們提出了各種模型,在眾多的資料探勘模型中,國際權威的學術組織 icdm (the ieee international conference on data mining)評選出了十大經典的演算法。

按照不同的目的,我可以將這些演算法分成四類,以便你更好的理解:

分類演算法:c4.5,樸素貝葉斯(***** bayes),svm,knn,adaboost,cart

聚類演算法:k-means,em

關聯分析:apriori

連線分析:pagerank

c4.5 演算法是得票最高的演算法,可以說是十大演算法之首。c4.5 是決策樹的演算法,它創造性地在決策樹構造過程中就進行了剪枝,並且可以處理連續的屬性,也能對不完整的資料進行處理。它可以說是決策樹分類中,具有里程碑式意義的演算法。

樸素貝葉斯模型是基於概率論的原理,它的思想是這樣的:對於給出的未知物體想要進行分類,就需要求解在這個未知物體出現的條件下各個類別出現的概率,哪個最大,就認為這個未知物體屬於哪個分類。

svm 的中文叫支援向量機,英文是 support vector machine,簡稱 svm。svm 在訓練中建立了乙個超平面的分類模型。如果你對超平面不理解,沒有關係,我在後面的演算法篇會給你進行介紹。

knn 也叫 k 最近鄰演算法,英文是 k-nearest neighbor。所謂 k 近鄰,就是每個樣本都可以用它最接近的 k 個鄰居來代表。如果乙個樣本,它的 k 個最接近的鄰居都屬於分類 a,那麼這個樣本也屬於分類 a。

adaboost 在訓練中建立了乙個聯合的分類模型。boost 在英文中代表提公升的意思,所以 adaboost 是個構建分類器的提公升演算法。它可以讓我們多個弱的分類器組成乙個強的分類器,所以 adaboost 也是乙個常用的分類演算法。

cart 代表分類和回歸樹,英文是 classification and regression trees。像英文一樣,它構建了兩棵樹:一顆是分類樹,另乙個是回歸樹。和 c4.5 一樣,它是乙個決策樹學習方法。

apriori 是一種挖掘關聯規則(association rules)的演算法,它通過挖掘頻繁項集(frequent item sets)來揭示物品之間的關聯關係,被廣泛應用到商業挖掘和網路安全等領域中。頻繁項集是指經常出現在一起的物品的集合,關聯規則暗示著兩種物品之間可能存在很強的關係。

k-means 演算法是乙個聚類演算法。你可以這麼理解,最終我想把物體劃分成 k 類。假設每個類別裡面,都有個「中心點」,即意見領袖,它是這個類別的核心。現在我有乙個新點要歸類,這時候就只要計算這個新點與 k 個中心點的距離,距離哪個中心點近,就變成了哪個類別。

em 演算法也叫最大期望演算法,是求引數的最大似然估計的一種方法。原理是這樣的:假設我們想要評估引數 a 和引數 b,在開始狀態下二者都是未知的,並且知道了 a 的資訊就可以得到 b 的資訊,反過來知道了 b 也就得到了 a。可以考慮首先賦予 a 某個初值,以此得到 b 的估值,然後從 b 的估值出發,重新估計 a 的取值,這個過程一直持續到收斂為止。

em 演算法經常用於聚類和機器學習領域中。

pagerank 起源於**影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇**的影響力越強。同樣 pagerank 被 google 創造性地應用到了網頁權重的計算中:當乙個頁面鏈出的頁面越多,說明這個頁面的「參考文獻」越多,當這個頁面被鏈入的頻率越高,說明這個頁面被引用的次數越高。基於這個原理,我們可以得到**的權重劃分。

演算法可以說是資料探勘的靈魂,也是最精華的部分。這 10 個經典演算法在整個資料探勘領域中的得票最高的,後面的一些其他演算法也基本上都是在這個基礎上進行改進和創新。今天你先對十大演算法有乙個初步的了解,你只需要做到心中有數就可以了,具體內容不理解沒有關係,後面我會詳細給你進行講解。

學習資料探勘的最佳路徑

一 資料探勘的基本流程 1 商業理解 資料探勘的目的是更好地幫助業務,要從商業的角度理解專案需求。2 資料理解 嘗試收集部分資料,然後對資料進行探索,包括資料描述 資料質量驗證等,有助於對資料有個初步認識。3 資料準備 開始收集資料,並對資料進行清洗 整合等操作,完成資料探勘前的準備工作。4 模型建...

資料探勘學習(一)

資料探勘 從大量資料中抽取出 隱含的 有潛在用途的 未知的 人們可以理解的 有價值的資訊和模式的過程。2.建立目標資料集 資料選擇 3.資料清理和預處理 4.資料簡化和變形 5.選擇資料探勘功能 6.選擇資料探勘演算法 7.資料探勘 尋找有趣的模式 8.模式評估和知識展示 9.知識發現的使用 方法 ...

資料探勘 學習日誌

主要知道每乙個函式的返回值是什麼 set是乙個無序不重複的序列 tolist 列表裡面套列表 temp list df genre str.split tolist 疑惑 這個迴圈不太懂 genre list list set i for j in temp list for i in j 用雙重迴...