這周學習hadoop的簡介及其發展,首先是hadoop的介紹
1)hadoop是乙個由apache**會所開發的分布式系統基礎架構。
2)主要解決,海量資料的儲存和海量資料的分析計算問題。
3)廣義上來說,hadoop通常是指乙個更廣泛的概念——hadoop生態圈。
hadoop 發展歷史
1)hadoop創始人doug cutting,為了實現與google類似的全文搜尋功能,他在lucene框架基礎上進行優
化公升級,查詢引擎和索引引擎。
hadoop創始人doug cutting
2)2023年年底lucene成為apache**會的乙個子專案。
3)對於海量資料的場景,lucene框架面對與google同樣的困難,儲存海量資料困難,檢索海量速度慢。
4)學習和模仿google解決這些問題的辦法 :微型版nutch。
5)可以說google是hadoop的思想之源(google在大資料方面的三篇**)
gfs --->hdfs
map-reduce --->mr
bigtable --->hbase
6)2003-2023年,google公開了部分gfs和mapreduce思想的細節,以此為基礎doug cutting等人用
了2年業餘時間實現了dfs和mapreduce機制,使nutch效能飆公升。
7)2005 年hadoop 作為 lucene的子專案 nutch的一部分正式引入apache**會。
8)2006 年 3 月份,map-reduce和nutch distributed file system (ndfs)分別被納入到 hadoop 專案
中,hadoop就此正式誕生,標誌著大資料時代來臨。
9)名字**於doug cutting兒子的玩具大象
然後介紹hadoop的優勢
1)高可靠性:hadoop底層維護多個資料副本,所以即使hadoop某個計算元
素或儲存出現故障,也不會導致資料的丟失。
2)高擴充套件性:在集群間分配任務資料,可方便的擴充套件數以千計的節點。
3)高效性:在mapreduce的思想下,hadoop是並行工作的,以加快任務處
理速度。
4)高容錯性:能夠自動將失敗的任務重新分配。
然後介紹hadoop生態體系
1)sqoop:sqoop 是一款開源的工具,主要用於在 hadoop、hive 與傳統的資料庫(mysql)
間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle 等)中的資料導進
到 hadoop 的 hdfs 中,也可以將 hdfs 的資料導進到關係型資料庫中。
2)flume:flume 是乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,
flume 支援在日誌系統中定製各類資料傳送方,用於收集資料;
3)kafka:kafka 是一種高吞吐量的分布式發布訂閱訊息系統;
4)spark:spark 是當前最流行的開源大資料記憶體計算框架。可以基於 hadoop 上儲存的大數
據進行計算。
5)flink:flink 是當前最流行的開源大資料記憶體計算框架。用於實時計算的場景較多。
6)oozie:oozie 是乙個管理 hadoop 作業(job)的工作流程排程管理系統。
7)hbase:hbase 是乙個分布式的、面向列的開源資料庫。hbase 不同於一般的關聯式資料庫,
它是乙個適合於非結構化資料儲存的資料庫。
8)hive:hive 是基於 hadoop 的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張
資料庫表,並提供簡單的 sql 查詢功能,可以將 sql 語句轉換為 mapreduce 任務進行運
行。其優點是學習成本低,可以通過類 sql 語句快速實現簡單的 mapreduce 統計,不必開
發專門的 mapreduce 應用,十分適合資料倉儲的統計分析。
9)zookeeper:它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、
名字服務、分布式同步、組服務等。
每週總結 12 5 12 11
關於時間格式 string型別轉date型別 string datestr2 2012 01 10t00 00 00 replace t dateformat dateformat new dateformat yyyy mm dd hh mm ss date date dateformat.par...
每週總結 2018 3 3
上個學期的學習經驗告訴我要勤總計。新的學期開始總結這週做的事。本週學習四天半,內容主要兩部分 python中特有的資料結構 元組tuple 1,2,3,4 同list,但不能修改 無list的方法 字典dict 插入d e 5,pop 鍵值 d.get 鍵值 使用鍵 值儲存 集合set 無重複元素 ...
每週總結 2018 3 10
這周開始上課,沒學什麼其他的,為了向某人交差,還是寫寫吧。智慧型演算法快速瀏覽 遺傳演算法 編碼 初始化種群 適應度函式 選擇 交叉 變異免疫演算法 編碼 初始化種群 適應度函式 轉殖選擇 免疫記憶 疫苗接種 交叉 變異粒子群演算法 編碼 初始化種群 適應度函式 粒子速度及位置更新魚群演算法 編碼 ...