大資料大資料,身邊很多朋友都在談大資料,big data!!!
到底是什麼,用來幹嘛的,也很少有人說得出一二,那今天開始就簡單說說這一二事吧
發音 /hadu:p/
在apache旗下作為乙個開源專案
它不是雲計算,卻是雲計算中的一部分,屬於大資料這塊
hadoop是乙個開源的分布式計算系統
hadoop所解決的問題:
海量資料分析 - mapreduce (分布式的計算模型)有多台機子進行資料的分析,例如原來工地有乙個人搬磚,一次性搬100塊磚頭,後來分為100個人,每個人搬10塊,同時會有老大工頭監控這些小弟
hadoop擅長日誌分析
現在的**使用stome來進行實時推薦
凌晨分析後的產生有用的資料,分為冷資料和熱資料,冷資料存放在myfox中(mysql集群),熱資料存放在prom中(hbase集群)
實時流資料處理使用storm,可以用於購買商品時實時推送推薦商品
現在hadoop已經出到了2,但是很多公司還是會基於1.0版本,因為穩定,也省去了遷移的風險
生態圈,各種掉渣天高大上(非常喜歡zookeeper)
hadoop的安裝有2種
本地模式:使用eclipse進行除錯,只有乙個map,只有乙個reduce
偽分布式:模擬多台機子,進行除錯
集群模式:生產環境
Hadoop 一二事 1 簡單介紹與雜談
大資料大資料,身邊很多朋友都在談大資料,big data!到底是什麼,用來幹嘛的,也很少有人說得出一二,那今天開始就簡單說說這一二事吧 發音 hadu p 在apache旗下作為乙個開源專案 它不是雲計算,卻是雲計算中的一部分,屬於大資料這塊 hadoop是乙個開源的分布式計算系統 hadoop所解...
Hadoop 簡單介紹
概述 hadoop是apache公司旗下乙個分布式基礎架構,主要解決大資料儲存和計算問題,是谷歌公司三篇 的具體實現 gfs hadoop,mapreduce mr,bigtable hbase 兩個版本 1.x版本的mapreduce既負責計算又負責資源的排程。2.x版本將mapreduce的資源...
RabbitMQ 一二事 簡單佇列使用
訊息佇列目前流行的有三種 1.rabbitmq 2.activemq 3.kafka 這三種都非常強大,rabbitmq目前用的比較多,也比較流行,阿里也在用 activemq是阿帕奇出品,但是效能上和rmq相比相對差一些 卡夫卡呢,使用場景不同,不多介紹,主要是用於日誌收集方面,結合hadoop非...