Hadoop基礎篇的筆記

2021-07-06 03:29:32 字數 957 閱讀 8990

學習慕課網《hadoop大資料平台架構與實踐–基礎篇》教程的筆記

本課程簡單的介紹了hadoop使用和基本工具和工作原理。

《hadoop開發指南》課本。

google大資料的技術:mapreduce,bigtable,gfs。

開源+分布式儲存+分布式雲計算

hadoop開發和運維人才

hive:把sql翻譯成任務

hbase:更高的擴充套件

zookeeper:監控集群的工具

雲主機:utask

塊(block):

namenode:是管理節點,存放檔案的元資料報括1)檔案與資料塊的對映表,2)資料塊與資料節點的對映表。

datanode:存放資料塊的。

secondarynamenode:

心跳檢測:datanode和namenode直接的聯絡,datanode每隔一定時間會向namenode報告自己的狀況,如網路狀態,是否可訪問。

資料冗餘,硬體容錯

流資料訪問,一次寫入,多次讀取。

適合大檔案。

一些命令的使用,如put,get,mkdir, 格式:hadoop fs -ls/-mkdir/get/put

平行計算框架。

分而治之,乙個大任務分成多個小的子任務(map),並行執行後合併返回結果(reduce)。

job&task:乙個job分成多個task,task分成maptasker和reducetasker。

jobtracker:1. 作業排程,2.分配任務,監控任務的執行進度。3. 監控tasktracker的狀態。

tasktracker:執行任務。

mapreduce容錯機制:1)重複執行,如果4次還是失敗,就放棄。2)推測執行。

這是個利用hadoop的小例子,可以參考。

Python基礎 筆記篇

主要作為學習python基礎時候的一些筆記。python 是一種解釋型 物件導向 動態資料型別的高階設計語言。python3.0 py3k或python3000 改動較大,沒有考慮向下相容,本文為python2.0。為區分python版本 可以通過命令 python v 檢視。第乙個python程式...

SQL 筆記(基礎篇)

查詢資料庫表名為 websites 擁有字段 id name url alexa country 1.select 查詢 select 語句用於查詢資料庫中選取資料。語法 select 欄位名,欄位名 from 表名。注意 如果 select 後面跟的是 號,那麼欄位名則不用填寫,select 查詢...

hadoop筆記一 簡介 HDFS的基礎

一 簡述 可靠性 可擴充套件 分布式計算框架 主要元件 hadoop common hadoop distributed file system hdfs hadoop yarn hadoop mapreduce 其他元件 hadoop ozone hadoop submarine a machin...