我們在進行資料分析或者資料探勘工作的時候,總會遇到很多的問題,而解決這些問題的方式有很多。如果需要我們用機器學習來處理,那麼就需要我們根據演算法去選擇乙個合適的演算法。但問題是,用機器學習處理問題,該如何選擇乙個合適的演算法呢?下面我們就給大家介紹一下選擇演算法的流程,希望這篇文章能夠更好地幫助大家理解機器學習。
選擇演算法是乙個比較麻煩的事情,但是並不是不能選擇,選擇就需要我們十分細心,這樣我們才能夠選擇出乙個合適的演算法,以便於我們更好的處理問題。選擇演算法首先需要分析業務需求或者場景,這一步完成以後,就需要我們初探資料,看看自己是否需要**目標值,如果需要的話,那麼就使用監督學習,當然,使用監督學習的時候,如果發現了目標變數,如果是離散型,那麼就使用分類演算法,如果是連續型,那麼就使用回歸演算法。當然,如果我們發現不需要**目標值,那麼就使用無監督學習,具體使用的演算法就是k-均值演算法、分層聚類演算法等其他演算法。
當我們充分了解資料及其特性,有助於我們更有效地選擇機器學習演算法。採用以上步驟在一定程度上可以縮小演算法的選擇範圍,使我們少走些彎路,但在具體選擇哪種演算法方面,一般並不存在最好的演算法或者可以給出最好結果的演算法,在實際做專案的過程中,這個過程往往需要多次嘗試,有時還要嘗試不同演算法。但是對於初學者,還是根據上面選擇演算法的方式選擇演算法為好。
說完了選擇演算法的步驟,下面我們就說一下spark在機器學習方面的優勢,在大資料上進行機器學習,需要處理全量資料並進行大量的迭代計算,這要求機器學習平台具備強大的處理能力。spark與hadoop相容,它立足於記憶體計算,天然的適應於迭代式計算,spark是乙個大資料計算平台,在這個平台上,有我sql式操作元件spark sql;功能強大、效能優良的機器學習庫spark mllib;還有影象處理的spark graphx及用於流式處理的spark streaming等,其優勢十分明顯。
優勢一:在完整的大資料生態系統中,有我們熟悉的sql式操作元件spark sql,還有功能強大、效能優良的機器學習庫、影象計算及用於流式處理等演算法。
優勢二:在高效能的大資料計算平台中,由於資料被載入到集群主機的分布式記憶體中。資料可以被快速的轉換迭代,並快取後續的頻繁訪問需求。基於記憶體運算,spark可以比hadoop快100倍,在磁碟中運算也比hadoop快10倍左右。
優勢三:這個演算法能夠與hadoop、hive、hbase等無縫連線:spark可以直接訪問hadoop、hive、hbase等的資料,同時也可使用hadoop的資源管理器。
在這篇文章中我們給大家介紹了機器學習處理問題如何選擇乙個合適的演算法以及spark演算法的優勢的內容,通過這篇文章相信大家已經找到了使用機器學習解決資料分析以及資料探勘問題的方法了吧?希望這篇文章能夠幫助到大家。
如何鍛鍊乙個人處理問題的能力?
處理和解決問題的能力是一種綜合能力,跟你所掌握的知識 見識 經驗 思維能力都有直接的關係。因為在遇到問題的時候,我們的大腦會優先呼叫記憶區的資料來做決策,等無法直接呼叫記憶時,大腦才會根據實際情況,通過背景知識,通過經驗進行資訊的關聯和合併,從而激發進一步的思考。比如說,你上班路上,該走哪條路,該在...
在機器學習中如何選擇乙個合適的演算法?
在我們使用機器學習處理問題的時候,我們需要選擇演算法,選擇乙個好的演算法能夠幫助我們提高工作效率。但是很多朋友對選擇演算法不是很理解,在這篇文章中我們就給大家介紹一下關於機器學習選擇演算法的相關建議,希望能夠對大家有所幫助。1.選擇演算法的意義 我們選擇演算法就是為了更高效率的進行處理問題。在我們充...
乙個奇怪的問題 需求如何影響選擇?
2014年12月15日 碰到乙個很有意思的問題問法,一時間完全不知該怎麼回答 原問題 績效管理需求如何影響績效管理模式的選擇?抽象後 需求如何影響選擇 第一反應 這算什麼問題,有需求當然要去滿足了,需求是因,選擇是果嘛。但這麼回答顯然不行。思考 但是否所有需求都能被滿足呢,營銷中學過 有消費能力的慾...