第一部分:了解大資料平台架構
大資料有非常大的價值,不管是從幫助企業創造營收還是從提高效率、節省企業成本角度。大資料要是做好了,將會是乙個企業增長的發動機,推動業務突飛猛進的發展。要實現大資料的價值,真正讓大資料為企業創造貢獻,首先必須要積累有大資料,把日常的業務和使用者行為資料收集起來。有些資料是可再生資源,但更多的資料是不可再生資源,大資料學習交流扣qun:74零零加4一3八yi
1)大資料平台由三個平台+乙個服務組成:工具平台,大資料倉儲基礎平台、大資料門戶,其中,工具平台又包含運維平台和資料採集平台,大資料門戶又包含大資料分析平台和大資料產品應用平台。
2)講講每個平台的作用。
運維平台主要負責整個大資料平台的任務排程、任務監控、元資料管理、許可權管理等,分別由排程系統、任務監控中心、元資料管理系統、許可權管理系統等系統組成。
大資料基礎平台,在傳統的關聯式資料庫時代,這個平台也是企業必須要做的平台,只不過當時叫資料倉儲系統,在大資料時代,我稱作為大資料倉儲基礎平台。這部分是整個大資料平台的核心。我們接下來會詳細討論。
大資料門戶,是資料成果的整合一體化平台,包含大資料分析平台和資料應用平台。大資料門戶作為整個資料部門的視窗,所有資料研究成果都會展現在資料門戶中,極大的方便了企業各層級、各職能人員使用資料。我們接下來也將會詳細討論下這部分內容。
使用者服務,使用我們資料的人主要有公司的各層級的管理人員、資料分析人員、運營人員、產品經理、技術研發工程師、企業的投資相關方,還可能有部分的公司提供對外的資料服務。提供服務的方式有多種多樣,或通過大資料門戶、或通過api介面、或是直接在分析報告中體現。
第二部分:掌握大資料常用工具元件
hadoop和spark是兩種不同的大資料處理框架,他們的元件都非常多,往往也不容易學,我把他們兩者整理在一幅圖中,給大家乙個全貌的感覺。初學者可以針對如下圖中的元件,逐個的去研究攻破。至於各元件的詳細介紹、相關聯絡和區別,以及它們在大資料平台建設中的具體實施關注點。
a.藍色部分,是hadoop生態系統元件,黃色部分是spark生態元件,雖然他們是兩種不同的大資料處理框架,但它們不是互斥的,spark與hadoop 中的mapreduce是一種相互共生的關係。hadoop提供了spark許多沒有的功能,比如分布式檔案系統,而spark 提供了實時記憶體計算,速度非常快。有一點大家要注意,spark並不是一定要依附於hadoop才能生存,除了hadoop的hdfs,還可以基於其他的雲平台,當然啦,大家一致認為spark與hadoop配合默契最好擺了。
b.技術趨勢:spark在崛起,hadoop和storm中的一些元件在消退。大家在學習使用相關技術的時候,記得與時俱進掌握好新的趨勢、新的替代技術,以保持自己的職業競爭力。
hsql未來可能會被spark sql替代,現在很多企業都是hive sql和spark sql兩種工具共存,當spark sql逐步成熟的時候,就有可能替換hsql;
mapreduce也有可能被spark 替換,趨勢是這樣,但目前spark還不夠成熟穩定,還有比較長的路要走;
hadoop中的演算法庫mahout正被spark中的演算法庫mlib所替代,為了不落後,大家注意去學習mlib演算法庫;
storm會被spark streaming替換嗎?在這裡,storm雖然不是hadoop生態中的一員,但我仍然想把它放在一起做過比較。由於spark和hadoop天衣無縫的結合,spark在逐步的走向成熟和穩定,其生態元件也在逐步的完善,是冉冉公升起的新星,我相信storm會逐步被擠壓而走向衰退。
第三部分:關於自學與培訓
入門學習大資料,乙個方面可以通過自學,另乙個方面可以通過參加培訓機構的培訓,但是,參加培訓是否真有用嗎?對於哪些人適用參加培訓?請看我的分享:
第一點,自己開始學大資料,但是真的找不到門路,不知道從何入手,不知道該安裝哪些大資料軟體工具、怎樣配置一套學習環境的時候。當然,這一點也可以通過諮詢專家解決;
第二點,自己有一定大資料基礎,日常學習中,碰到各種問題,乙個人摸索,效率較低,希望建立乙個多人學習交流的環境,結交更多的大資料同學,以加快速度學習成長的時候。
第三點,家庭環境比較好,或者是工作了幾年的同學,在培訓費上面比較容易接受,可以參加培訓加快自己的成長。
總而言之,參加大資料培訓就是以金錢換取時間(快速成長,快速入門)和空間(創造更好的多人學習交流環境),能否發揮更大的價值,就要看個人的情況和選擇怎樣的培訓機構了。大資料學習交流扣qun:74零零加4一3八yi
乙個好的培訓機構不僅能夠讓你快速的學到大資料方面的知識,更是鍛鍊了你的專案實戰能力,讓你快速找到乙份滿意的大資料工作,讓你順利進入到大資料領域工作,開展你的大資料職業生涯。既然培訓機構這麼重要,我們該如何選擇呢?大家知道,培訓機構不僅有線下的培訓機構,更有眾多的線上教育平台,那麼該如何選擇呢?
首先,我們比較下他們之間的優劣勢:
線上教育平台,資源眾多,我們可以以比較低成本甚至免費就能獲取到物美價廉的教程,學習時間上我們也比較好控制,隨時可分配自己的學習時間,對於有一定基礎的同學來說,會是乙個非常好的選擇;
線下培訓機構,由於受空間和時間的限制,學員必須在指定時間指定地點完成學習,培訓機構提供了練習測試的環境、提供了訓練資料,也有老師給學員做指導,更有同學之間的交流切磋,對於有充分時間的零基礎學員來說,通過強迫集中式學習,會更容易入門上手。
其次,不管選擇線上培訓課程還是線下培訓機構,核心點就是要揚長避短,充分利用他們之間的優勢,如果自己能夠在電腦上配置一套測試練習環境、找到一門適合自己的線上優質課程,那麼線上課程也一樣能收到很好的效果。
最後,如果要在眾多的線下培訓機構中選擇一家靠譜的,我想可以看幾點,
第一點,看是否能提供真實的專案去實習,這一點非常關鍵且最重要。真實的專案,讓你身入奇境,通過專案中,知道大資料日常工作的內容有哪些,除了你日常學習的高大上技術以外,其實是還有很多瑣碎的工作的。幾個專案下來,你去找工作就輕車熟路,如同跳槽換工作一樣簡單,面試毫無問題。當然啦,這一類機構貌似極其少,因為要找到真實大資料專案去做的培訓機構真的不多。
第二點,如果培訓機構拿不到真實的大資料專案,那麼要看其設定的培訓案例是否是在日常企業中應用最廣泛的領域,案例和技能培訓緊密結合,設法讓學員學習後,到企業工作,案例可以作為標準的模板,能夠靈活的運用學習的大資料技能。
大資料入門學習(一) 初識大資料
大資料的定義 大資料 big data 又稱為巨量資料,指需要新處理模式才能具有更強的決策力 洞察力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統...
大資料學習 linux入門學習
2017 6 6,開始利用業餘時間學習大資料技術,第一步,在本機安裝虛擬機器,安裝虛擬linux系統,虛擬機器安裝vmware,虛擬系統選擇redhat6.5。其它收穫 vmware安裝時,須將電腦bios中vt開啟。linu學習中避免使用圖形介面,要能折騰,不要規避系統裝機。要學會在linux上安...
大資料學習 Mahout入門
實驗環境 shiyanlou centos6.6 64 jdk 1.7.0 55 64 hadoop 1.1.2 mahout是apache旗下的乙個開源專案,提供一些可擴充套件的機器學習領域經典演算法的賓實現,幫助開發人員快捷地建立智慧型應用程式。mahout包含許多實現,包括聚類 分類 推薦過濾...