在機器學習中如何選擇乙個合適的演算法?

2021-09-29 13:40:43 字數 1090 閱讀 4182

在我們使用機器學習處理問題的時候,我們需要選擇演算法,選擇乙個好的演算法能夠幫助我們提高工作效率。但是很多朋友對選擇演算法不是很理解,在這篇文章中我們就給大家介紹一下關於機器學習選擇演算法的相關建議,希望能夠對大家有所幫助。

1.選擇演算法的意義

我們選擇演算法就是為了更高效率的進行處理問題。在我們充分了解資料及其特性以後,就能夠幫助我們更有效地選擇機器學習演算法。採用某種流程就可以縮小演算法的選擇範圍,使我們少走些彎路,但在具體選擇哪種演算法方面,一般並不存在最好的演算法或者可以給出最好結果的演算法,在實際做專案的過程中,這個過程往往需要多次嘗試,有時還要嘗試不同演算法。但是對於初學者,選擇演算法還是按照下面提到的演算法進行選擇。

2.選擇演算法的步驟

通常來說,選擇演算法是乙個比較麻煩的事情,但是並不是不能選擇,選擇就需要我們十分細心,這樣我們才能夠選擇出乙個合適的演算法,以便於我們更好的處理問題。選擇演算法首先需要分析業務需求或者場景,這一步完成以後,就需要我們初探資料,看看自己是否需要**目標值,如果需要的話,那麼就使用監督學習,當然,使用監督學習的時候,如果發現了目標變數,如果是離散型,那麼就使用分類演算法,如果是連續型,那麼就使用回歸演算法。當然,如果我們發現不需要**目標值,那麼就使用無監督學習,具體使用的演算法就是k-均值演算法、分層聚類演算法等其他演算法。

3.sql spark演算法的優勢

有一種演算法十分常見並且實用,那就是sql spark演算法,spark sql演算法有著功能強大、效能優良的機器學習庫,還可以用於影象處理和用於流式處理的工具,其優勢十分明顯。

(1)這個演算法能夠與hadoop、hive、hbase等無縫連線:spark可以直接訪問hadoop、hive、hbase等的資料,同時也可使用hadoop的資源管理器。

(2)在完整的大資料生態系統中,有我們熟悉的sql式操作元件spark sql,還有功能強大、效能優良的機器學習庫、影象計算及用於流式處理等演算法。

(3)在高效能的大資料計算平台中,由於資料被載入到集群主機的分布式記憶體中。資料可以被快速的轉換迭代,並快取後續的頻繁訪問需求。基於記憶體運算,spark可以比hadoop快100倍,在磁碟中運算也比hadoop快10倍左右。

機器學習處理問題如何選擇乙個合適的演算法?

我們在進行資料分析或者資料探勘工作的時候,總會遇到很多的問題,而解決這些問題的方式有很多。如果需要我們用機器學習來處理,那麼就需要我們根據演算法去選擇乙個合適的演算法。但問題是,用機器學習處理問題,該如何選擇乙個合適的演算法呢?下面我們就給大家介紹一下選擇演算法的流程,希望這篇文章能夠更好地幫助大家...

在實際專案中,如何選擇合適的機器學習模型?

文末高能 編輯 哈比 在這個文章中,我們主要面向初學者或中級資料分析師,他們對識別和應用機器學習演算法都非常感興趣,但是初學者在面對各種機器學習演算法時,都會遇到乙個問題是 在實際專案中,我到底應該使用哪種演算法呢?這個問題的答案取決於許多的因素,其中包括 資料的維度大小,資料的質量和資料的特徵屬性...

資料探勘中機器學習如何選擇合適的演算法

最近看了一些資料,許多細的知識在這裡總結一下,入門者也可以作為乙個參考,關於在資料探勘中我們應該選擇哪種演算法。當然這個問題我在前面的一篇文章中已經有過介紹 官方小紙條,這個參考性是可靠的。這裡的介紹作為乙個更為詳細的補充和說明。補充下面四個小知識 監督學習 利用樣本輸入和期望輸出來學習如何 的技術...