如何安裝和搭建虛擬機器網路
hadoop2.5.2的偽分布式搭建
hadoop2.5.2+centos6.5編譯原始碼
hdfs的講解
hadoop 2.5.2分布式環境部署
zookeeper分布式集群部署
hadoop 2.x高可用性部署
mapreduce詳解1
mapreduce詳解2
hive的功能介紹,安裝和測試
hive 中udf程式設計
hive 表的建立、資料載入、匯出、查詢
hive日誌分析
sqoop 匯入匯出資料
flume實時抽取監控目錄資料
大資料視覺化工具hue安裝使用
oozie工作流的安裝及使用
spark 功能、編譯及安裝部署測試
spark sql
spark streaming
hbase集群部署及測試
第零篇博文
現在是乙個碩士一年級,馬上快二年級的菜雞機械研究生。最近找實習面試比較痛苦,尋思著開始寫些部落格,順帶複習一下自己以前學過的知識,也激勵自己成長吧。我本科是學的機械設計,研究生依然是機械,我覺得我可以說是對機械愛的深沉。但是五年的學府時光,我也漸漸認清了現實,國內機械就是坨屎,即使985學歷的高材生...
大資料 kafka學習基礎篇
一.訊息佇列的兩個模式和特點 兩個模式 點對點模式 一對一,消費者主動拉取資料,訊息收到後訊息清楚 發布 訂閱模式 一對多,資料生產後,推送給所有訂閱者 8大特點 1.解耦 2.冗餘 3.擴充套件性 4.靈活性 峰值處理能力 5.可恢復性 6.順序保證 7.緩衝 8.非同步通訊 佇列 先進先出 棧 ...
大資料學習之 Kafka 篇
一 簡介 一種分布式的基於發布 訂閱的訊息系統 二 場景 常用組合 常用 flume 收集資料 kafka 把收集來的資料儲存到kafka spark streaming 使用spark streaming 從kafka中取資料 運用場景 1.系統之間的解耦合 2.峰值壓力緩衝 3.非同步通訊 三 ...