學習慕課網《hadoop大資料平台架構與實踐–基礎篇》教程的筆記
本課程簡單的介紹了hadoop使用和基本工具和工作原理。
《hadoop開發指南》課本。
google大資料的技術:mapreduce,bigtable,gfs。
開源+分布式儲存+分布式雲計算
hadoop開發和運維人才
hive:把sql翻譯成任務
hbase:更高的擴充套件
zookeeper:監控集群的工具
雲主機:utask
塊(block):
namenode:是管理節點,存放檔案的元資料報括1)檔案與資料塊的對映表,2)資料塊與資料節點的對映表。
datanode:存放資料塊的。
secondarynamenode:
心跳檢測:datanode和namenode直接的聯絡,datanode每隔一定時間會向namenode報告自己的狀況,如網路狀態,是否可訪問。
資料冗餘,硬體容錯
流資料訪問,一次寫入,多次讀取。
適合大檔案。
一些命令的使用,如put,get,mkdir, 格式:hadoop fs -ls/-mkdir/get/put
平行計算框架。分而治之,乙個大任務分成多個小的子任務(map),並行執行後合併返回結果(reduce)。
job&task:乙個job分成多個task,task分成maptasker和reducetasker。
jobtracker:1. 作業排程,2.分配任務,監控任務的執行進度。3. 監控tasktracker的狀態。
tasktracker:執行任務。
mapreduce容錯機制:1)重複執行,如果4次還是失敗,就放棄。2)推測執行。
這是個利用hadoop的小例子,可以參考。
Python基礎 筆記篇
主要作為學習python基礎時候的一些筆記。python 是一種解釋型 物件導向 動態資料型別的高階設計語言。python3.0 py3k或python3000 改動較大,沒有考慮向下相容,本文為python2.0。為區分python版本 可以通過命令 python v 檢視。第乙個python程式...
SQL 筆記(基礎篇)
查詢資料庫表名為 websites 擁有字段 id name url alexa country 1.select 查詢 select 語句用於查詢資料庫中選取資料。語法 select 欄位名,欄位名 from 表名。注意 如果 select 後面跟的是 號,那麼欄位名則不用填寫,select 查詢...
hadoop筆記一 簡介 HDFS的基礎
一 簡述 可靠性 可擴充套件 分布式計算框架 主要元件 hadoop common hadoop distributed file system hdfs hadoop yarn hadoop mapreduce 其他元件 hadoop ozone hadoop submarine a machin...