大資料學習筆記01

2022-07-22 12:09:09 字數 607 閱讀 1535

安裝vmware,需要金鑰,安裝之後在網路配置中可以找到vm1 和vm8兩個網路,否則安裝不成功

安裝finalshell或者xshell,通過遠端ssh連線到linux,需要保證

例子:自來水廠處理自來水

特點:實時性(源源不斷)

離線計算

流式計算

代表技術

mapreduce

storm、spark streaming、flink

資料採集

準備環境:

1.安裝linux redhat7.4 64位

2.jdk 1.8 64位

3.配置密碼登入

4.主機名

5.關閉防火牆

2.6

大資料學習筆記

大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...

大資料技術之kettle 筆記01

kettle 官網 工具 kettle 開源的etl工具 管理來自不同資料庫的資料 有兩種指令碼檔案,transformation和job,transformation完成針對資料的基礎轉換,job則完成整個工作流的控制 spoon 圖形化介面工具 kettle 一部分 4部分 spoon使用測試 ...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...