大資料基礎

2021-10-07 17:49:57 字數 574 閱讀 2461

hadoop是提供分布式的儲存(乙個檔案被拆分成很多個快,並且以副本的反式儲存在各個節點中)和計算。

分布式檔案系統:hdfs實現將檔案分布式儲存在很多的伺服器上。

hdfs特點:擴充套件性、容錯性、海量數量儲存

工作機制:將檔案切分為指定大小的資料塊並以多副本儲存在多個機器上。

資料切分、多副本、容錯等操作對使用者是透明的

分布式計算框架:mapreduce實現在很多機器上分布式平行計算

源自於google的mapreduce**、**發表於2004year

擴充套件性、容錯性、海量資料離線處理

hadoop優勢:高可靠性

資料儲存:資料塊多副本

資料計算:重新排程作業計算

高擴充套件性:儲存/計算資源不夠時,可以橫向的線性擴充套件機器,乙個集群可以包含數以千計的節點

助於目錄的生成

apache:

優點:開源,

缺點:不同版本不同框架之間整合 jar衝突。。。

hdp:企業發布自己的資料平台可以直接基於頁面框架進行改造

優點:原裝hadoop、開源、支援tez

缺點:企業級安全不開源

大資料基礎

三次浪潮 資訊處理,資訊傳輸,資訊 運營式系統階段,使用者原創內容階段,感知式系統階段 萌芽期,成熟期,大規模應用期 2010年後 大資料概念 資料量大 volume 資料型別多 vareity 結構化資料和非結構化資料 處理速度快 velocity 價值密度低 value 大資料影響 科學研究 實...

大資料 Centos基礎

簡單學學常見的一些指令。首先,我們在vmware中安裝乙個centos的虛擬機器,安裝完畢之後是沒有網路,我們需要配置下網路。networkking yes hostname hadoop 主機名稱 底下的subnet ip和subnet mask是後邊配置需要的。檢視 修改ifcfg ens33新...

大資料基礎問題

1 什麼是大資料?大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。2 什麼是大資料技術?哪些技術適應於大資料?大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式...