技術棧全貌
大資料平台技術棧
下面自底向上介紹各個層的主要專案。
1 採集層和傳輸層
採集層在hadoop和關係型資料庫之間轉換資料。
flume是乙個分布式的高可用的資料收集、聚集和移動的工具。通常用於從其他系統蒐集資料,如web伺服器產生的日誌,通過flume將日誌寫入到hadoop的hdfs中。
資料抽取是 etl 流程的第一步。我們會將資料從 rdbms 或日誌伺服器等外部系統抽取至資料倉儲,進行清洗、轉換、聚合等操作。在現代**技術棧中,mysql 是最常見的資料庫管理系統,我們會從多個不同的 mysql 例項中抽取資料,存入乙個中心節點,或直接進入 hive。市面上已有多種成熟的、基於 sql 查詢的抽取軟體,如著名的開源專案 apache sqoop,然而這些工具並不支援實時的資料抽取。mysql binlog 則是一種實時的資料流,用於主從節點之間的資料複製,我們
Mongodb之 初出茅廬
mongodb之 初出茅廬 首先,感謝cnblogs tv,感謝博主的tv,更感謝對上期分享支援的朋友們。在你們的支援,才有了讓我寫下這一期的動力。夜晚也許你在電視機邊看電視,也許你在網上看電影。而我在堅守了一天的電腦之後,繼續坐到了電腦邊,聽著北京廣播網的87.6,寫著技術分享。好了重點來了,也是...
Linux命令之初出茅廬
此處講解常用到的引數選項 ls 是列出檔案的意思 ls a 檢視所有檔案包含隱藏檔案 ls l 檢視與檔案相關的所有屬性資訊 ls i 檢視檔案的inode資訊 ls h,按照更為容易閱讀的方式格式化輸出檔案的大小 目錄切換 使用cd 命令 切換到桌面 切換到上級目錄 切換到目標目錄 此處目錄為根目...
JsonBuilder初出茅廬
網際網路這股東風不久前颳到了甘涼國,國王老甘獨具慧眼,想趕緊趁著東風未停大力發展移動網際網路,因為他篤信布斯雷的理論 站在風口上,豬都能飛起來 無奈地方偏僻落後,國內無可用之才啊。老甘一籌莫展的低頭凝思應聲被打斷,啟奏陛下,有四個從東土大唐來的和尚前來更換通關文牒 聽到 東土大唐 四個字,老甘心頭一...