今天來說一說對於大資料這個詞的理解 以及初步的認識;
(以下只是本人簡短學習之後的總結,如有錯誤歡迎指出)
我對於大資料的認知是:短時間內快速產生的大量且多種多樣的有價值的資訊;
在以往,資料產生速度慢,節奏慢,而現在呢社會科技發展之快是肉眼可見的,當然也有很多是我們還沒真正地感受到,就已經有開始了更先進的技術發布;對於這一資料量過大的問題,有兩個解決方法:
1:垂直擴充套件:就好比你的電腦要擴大容量是在電腦本身上新增硬碟;
2:橫向擴充套件:是多台伺服器連在一起的擴充套件;(這其中只需要簡單廉價的伺服器或者pc端就可以了)
在此處將提到谷歌的三大**:堪稱大資料的鼻祖
gfs***************==》由此研發出了hdfs分布式檔案系統
mapreduce ==》分布式的處理
bigdata
》hbase
hadoop分布式檔案系統(hdfs)被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統。它和現有的分布式檔案系統有很多共同點。但同時,它和其他的分布式檔案系統的區別也是很明顯的。hdfs是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。
hadoop-------hadoop官網
hdfs
yarn-------資源和任務排程
是一種新的 hadoop 資源管理器,它是乙個通用資源管理系統,可為上層應用提供統一的資源管理和排程,它的引入為集群在利用率、資源統一管理和資料共享等方面帶來了巨大好處。
mapreduce-------批處理
spark----------apache spark是專為大規模資料處理而設計的快速通用的計算引擎。現在形成乙個高速發展應用廣泛的生態系統。
spark core
sparksql----可以使用sql處理
sparkstreaming-----流式處理
mllib—機器學習庫
graphx--------(spark已經停止維護)
主從架構
主節點:namenode
從節點:datanode
client
hdfs的讀取機制:①存檔案
②讀檔案
備份----------》解決安全問題
以block塊的形式將大檔案進行相應的儲存
預設是 128m
在儲存過程中檔案線性切割成塊(block):偏移量 offset(byte)
block分散儲存在集群節點中
單一檔案block大小一致 ,檔案與檔案可以不一致
分割出來的block的大小需要統一,如是128m的話就每乙個block都是128m
但是是兩個檔案的話就可以不一樣,乙個可以是128m ,另乙個可以使64m
如:乙個檔案線性分割成了13.1塊 但是需要的是14塊
block可以設定副本,副本分散在不同的節點中
副本數不可以超過節點數量:
當你建立副本的時候就是為了備份 ,但是如果在乙個節點中設定重複的備份是無用的,因為當著乙個節點丟失的時候也就都丟了;
檔案上傳時可以設定block的大小和副本數
已經上傳的檔案的block的副本數可以調整,但是大小不可以改變
只支援一次寫入多次讀取,同乙個時刻只能有乙個寫入者;
》再舉乙個例子
namenode:乙個公司的老闆簡稱nn
datanode:員工 簡稱dn
client 相當於秘書
老闆nn掌控全域性 管理dn的資訊 管理元資料 ==元資料:描述資料的資料
源資料:資料
接收秘書的請求 還要讀寫
與員工dn之間進行相應的通訊
dn :負責幹活===>儲存資料
匯報自己的情況
接收秘書的安排
當老闆下達乙個工作指令的時候 是下達給秘書,然後秘書分配給員工
這有乙個寫的操作:
--------------------------》
乙個大的檔案需要儲存到伺服器中
大檔案的大小/128m=block塊數
秘書:client將大檔案切塊 然後向nn匯報切了多少塊 大檔案的大小 檔案的許可權 檔案的屬主 檔案的上傳時間
切好之後 client就去找nn 申請資源 ----dn的資訊
nn會返回一批負載不高的dn 給client
client開始向dn中傳送block 並且做好備份
dn存放block塊之後會向nn匯報情況
如果直接將乙個block塞進管道進行儲存 就會形成堵塞 效率低
這時,nn會返回給client一些dn的資訊 之後client會和這些dn形成乙個管道,並且將block切割成乙個乙個ackpackage(64k)
dn會從管道中拿取相應的資料進行儲存
儲存成功之後dn會向nn匯報
讀請求:
nn會向client傳送請求說要讀哪個資料,client收到請求之後,會向nn申請及誒單的資訊(blockid)
nn就會傳送節點資訊給client
client獲取到節點之後會去dn上拿取資料------採取就近原則
備份機制
兩種情況:
1:集群內提交 在提交的節點上放置block
2:集群外提交 選擇乙個負載不高的節點進行存放
需注意:放置在與第乙個備份不同的機架上的任意節點上
放置在第二個機架的不同機架上(為了安全)
我對大資料的認識
你好,我是來自蘭州文理學院數字 學院資料科學與大資料技術班的一名大學生,你可以叫我小黑。經過這段時間的學習我對大資料有了更好的了解,大資料時代到來最初是麥肯錫 資料已經滲透到當今每乙個行業和業務職能領域,成為重要的產生因素。人們對海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。大...
大資料職業理解 對於大資料的認識和理解
精品資料 對於大資料的認識和理解 這學期選修了網路工程這門課程,當時是抱著掃盲的態度選的這門課程,給自己定的目標不高,只需要對一些基礎的概念和網路結構有些認識就可以,以免以後在人前談論的時候不至於成為 it文盲,被一些專業性的技術人員所嚇倒。事實證明,態度決定一切,由於自己剛開始設定的目標就比較低,...
1 認識大資料
大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...