最近看了一些資料,許多細的知識在這裡總結一下,入門者也可以作為乙個參考,關於在資料探勘中我們應該選擇哪種演算法。
當然這個問題我在前面的一篇文章中已經有過介紹 官方小紙條,這個參考性是可靠的。這裡的介紹作為乙個更為詳細的補充和說明。
補充下面四個小知識:
監督學習:利用樣本輸入和期望輸出來學習如何**的技術。
無監督學習:利用帶有正確答案的樣本資料進行訓練,目的是要在一組資料中找尋某種結構,而這些資料本身並不是答案。
監督學習主要為分類和回歸:神經網路、決策樹、支援向量機、貝葉斯過濾等等;聚類則屬於無監督學習的乙個例子:k-means、dbscan等等
連續資料:在某個區間可以任意取值,其數值連續不斷,相鄰兩個數值可做無限分割。
離散資料:其目標變數只能用自然數、整數單位計算的資料。
先說一下總的思路:
1:收集資料 (爬蟲、api、現有資料集)
2:準備輸入資料 (檢查資料是否有效:資料格式等)
3:分析輸入資料 (清理資料)
4:訓練演算法 (無監督學習不存在目標變數則無需訓練)
5:測試演算法 (根據第四步的結果,監督學習:評估已知目標變數與**目標變數 召回率;無監督:使用其它手段)
6:使用演算法 (若第5步不滿意可以重複第四步,或者從收集資料開始。第五步滿意則進入第六步使用該演算法)
這裡重點講說明第4、5步對於選擇何種演算法的步驟:
由於做ppt有點浪費時間,所以這裡寫在紙上,應該能看清楚。這裡只是乙個大概的分析線路,基本適用,之所以說基本是因為有的特殊情況分類演算法也可以用來處理回歸問題,這裡就暫不討論。
具體的演算法後面有機會再說一下,根據上面的步驟我們基本上能確定乙個大的演算法選擇方向了。如果有建議的朋友還請指教。
在機器學習中如何選擇乙個合適的演算法?
在我們使用機器學習處理問題的時候,我們需要選擇演算法,選擇乙個好的演算法能夠幫助我們提高工作效率。但是很多朋友對選擇演算法不是很理解,在這篇文章中我們就給大家介紹一下關於機器學習選擇演算法的相關建議,希望能夠對大家有所幫助。1.選擇演算法的意義 我們選擇演算法就是為了更高效率的進行處理問題。在我們充...
如何選擇合適的機器視覺系統
合適的視覺系統需要了解系統的 基本工作原理,最終怎樣選擇 取決於使用者自身的需求和目標以及工廠內 部及廠線 的環境條件。opt機器 視覺在世界 知名的裝置製造商 中得到越來越多的部署,因為它們能夠 看到 汙漬 顏色細微差別 以及其他缺陷,而這些缺陷 是容易被 人眼檢測 忽略的。通常,機器系統中的元件...
在實際專案中,如何選擇合適的機器學習模型?
文末高能 編輯 哈比 在這個文章中,我們主要面向初學者或中級資料分析師,他們對識別和應用機器學習演算法都非常感興趣,但是初學者在面對各種機器學習演算法時,都會遇到乙個問題是 在實際專案中,我到底應該使用哪種演算法呢?這個問題的答案取決於許多的因素,其中包括 資料的維度大小,資料的質量和資料的特徵屬性...