對於剛開始學習大資料的人來說,清楚的明白大資料的企業架構尤為重要,對於以後的學習有著不可替代的作用,我將分享一下我對大資料架構的一些理解,不足之處,希望諒解。
這是一張大資料架構的圖
根據上圖,我們可以清楚的了解到大資料的架構分為六層。接下來我將會一一講解各層作用。
資料來源:
資料來源顧名思義也就是資料的**。我們學習的大資料,資料**一般分為以下三個方面。
網際網路:對於網際網路,我想大家再清楚不過了,因為我們每天都會去訪問網際網路。我們可以通過一些工具,比如八爪魚等工具爬取我們所需要的資料。另外我們還可以通過自己寫的爬蟲,爬取網上我們想要的資料。
物聯網:也就是我們通常所說的感測器,攝像頭,冰箱,洗衣機等所產生的資料。
企業資料:這個沒有什麼好講的,就是企業業務中積攢下來的資料。
資料收集/準備:
資料已經在那裡了,我們當然要進行資料的收集與準備了。
flume:flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統。
kafka:kafks是訊息佇列,一般接物聯網資料。
sqoop: sqoop是一款開源的工具,主要用於在hadoop(hive)與傳統的資料庫(mysql、postgresql…)間進行資料的傳遞,可以將乙個關係
型資料庫(例如 : mysql ,oracle ,postgres等)中的資料導進
到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫
中。 資料儲存:
得到的資料當然要儲存起來了。
hdfs:hdfs(hadoop distributed file system )hadoop分布式檔案系統。
hbase:h base是乙個開源的非關係型分布式資料庫(nosql)。
hbase產生背景:
1.hdfs在資料隨機訪問和實時響應方面的表現並不理想;
2.hdfs是針對大體積檔案(128m)來設計的,小檔案占用儲存和效能,查詢慢;
3.hbase具有的有點:
a)合併小檔案儲存為大檔案
b)排序提高檢索效能(key-value形式儲存)
c)支援mapreduce(hbase不支援join操作,所以支援mapreduce)
資源管理:
yarn: yarn是從0.23.0版本開始新引入的資源管理系統,進行資源管理和作業排程。
計算框架:
計算框架分為三類。
批處理:mr等
流式處理:storm等
互動式處理:presto(因為處理速度快,不適合大批量)
資料分析:
清洗完資料後進行資料分析。
mahout:(hadoop自帶)生產環境一般不用它
mllib:(spark)一般比較常用
資料展示:
最後階段當然就是資料展示了,利用一些工具跟軟體將資料漂亮完美的展現出來。
其中有d3,echart:,tableau,finereport(國內市場占用最多的)等等。
基於以上大資料的架構,產生可各種各樣的工作職位。以下這張圖介紹了大資料的相關熱門職業。
通過這篇部落格,你有沒有對大資料的架構有了清晰的認識呢?希望我寫的這篇文章對你們有所幫助。因為在我剛開始學習大資料的時候,可是沒找到這一型別的。所以今天總結以下,希望對各位有所幫助。
大資料的前景以及大資料在企業中的開發運用
本次分享主要介紹大資料的發展趨勢,大資料生態系統的的各個框架,讓你先見森林,再見樹木,做到心中有數。本次 chat 還將帶您走進大資料在企業中的運用趨勢,以及在企業中主流架構模式。讓初學者或打算轉行大資料的從業者,準備面試者明白大資料工程師目前在企業中主要做什麼?學習大資料的著重點在 未來的就業方向...
大資料中物聯網架構的相關知識
隨著大資料越來越火,企業們都開始紛紛使用大資料來解決問題。在大資料的解決方案中,有乙個十分典型的案例,那就是物聯網。其實物聯網現在早就不是什麼新興的概念了,物聯網現在有很多的成品已經進入了我們的生活中。在這篇文章中我們就重點為大家介紹一下關於物聯網架構的相關知識。1.物聯網的架構 物聯網是有裝置 現...
大資料中物聯網架構的相關知識
隨著大資料越來越火,企業們都開始紛紛使用大資料來解決問題。在大資料的解決方案中,有乙個十分典型的案例,那就是物聯網。其實物聯網現在早就不是什麼新興的概念了,物聯網現在有很多的成品已經進入了我們的生活中。在這篇文章中我們就重點為大家介紹一下關於物聯網架構的相關知識。1.物聯網的架構 物聯網是有裝置 現...