為什麼要創造(發明/使用)hadoop?hadoop的存在有什麼意義?
資料的儲存面臨一系列的問題:
雖然磁碟儲存容量快速增加,但訪問速度並沒有太大的變化。
要實現對多個磁碟資料的並行讀寫,還有更多的問題要解決。
總之,hadoop有著可靠的共享儲存和分析系統。hdfs實現儲存,而mapreduce實現分析處理,這兩部分是hadoop的核心。
使用其他系統不能解決上面的問題嗎?為什麼必須使用hadoop?
mapreduce的查詢處理比較蠻力,因為每個查詢需要處理整個資料集(或至少資料集的很大一部分)。
反過來想,這也是hadoop的優秀之處。mapreduce是一種批量查詢處理器,能夠在合理的時間內,處理針對整個資料集的即時(ad hoc)查詢。
為什麼不用資料庫做批量分析,而需要mapreduce呢?
資料庫也可以對大規模資料進行批量分析,例如使用sql server的sql語言,就可以進行批量查詢處理,那為什麼不這樣使用呢?
因為資料庫查詢時,定址時間遠遠慢於傳輸速率。(定址也就是將磁頭移動到特定磁碟位置進行讀寫操作的過程。)
這部分的標題為什麼取名為」關係型資料庫呢?mapreduce與關係型資料庫有什麼關係嗎?」
首先,什麼是關係型資料庫?
關係型資料庫是一種二維**模型,是由二維表及其之間的聯絡組成的乙個資料組織。
然後,mapreduce與關係型資料庫有什麼聯絡呢?
在許多情況下,mapreduce可以視為關係型資料庫管理系統的補充。為什麼呢?
Hadoop學習筆記1 初識Hadoop
資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...
Hadoop之HA高可用性
ha存在的背景 ha的工作原理圖 hdfs ha高可用性 1 active namenode對外提供服務和standby namenode時刻待機準備的 2 保證兩個namenode任何時候都是元資料同步的 3 standby namenode同樣需要去讀取fsimage和edits檔案 edits...