Hadoop學習筆記1 初識Hadoop

2021-08-02 17:15:41 字數 514 閱讀 4898

資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!

當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。

要達到這種目的,面臨的2個問題:

hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。

為什麼不能用關係型資料庫+更多磁碟做批量分析?

1. 磁碟驅動器的定址時間提高速度遠遠慢於傳輸速率的提高速度。

定址:將磁頭移動到特定位置進行讀寫操作的工序

傳輸速率:對應於磁碟的頻寬

2. 傳統關係型資料庫使用b樹,b樹對於小量資料更新時效果比較好,但對於大量資料更新的時候,效率就沒有mr高了。

mr適合做分析整個資料集的問題

rdbms適用於點查詢和更新

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

hadoop筆記 HA部署

管理指令碼遠端管理節點,再集群中隨便挑一台,把公鑰發給所有 搭建ha時,namenode的zkfc需要免秘鑰,用來管理自己和對方 故障應對 邏輯物理對映 jn相關配置,資訊描述 故障發生時免秘鑰配置 還有一種是shell指令碼 記得格式化之前啟動jn 第一台格式化之後啟動,並且讓後續namenode...

Hadoop學習筆記(一)初識Hadoop

研究生階段將要接觸大資料和深度學習的知識,在網上找的教程大多一上來就是一堆名詞又解釋不清楚,對新手相當不友好,在慕課網看到乙個教程,利用部落格記錄下自己學習的過程。關於hadoop 最好的介紹莫過於官網的文件,hadoop的官網如下,我們一句一句來看看hadoop官網是怎麼介紹的。the apach...