我們生活在資料時代,每天都有大量的資料在產出,但這些資料怎麼儲存、使用就變的非常重要的;乙個資料不被使用那這份資料就是死資料
現在我們的磁碟讀速度100m/s 如果讀10t 的資料需要 10 * 1000 * 1000 m / 100m = 30個小時;那這樣的速度肯定是不可取的,一種簡單的辦法就是把資料儲存在多台機器上(資料足夠大,一台機器也儲存不下來);然後並行的讀取多個磁碟,這樣讀取時間就會降下來;這樣一塊磁碟儲存很多份資料,乙份大資料分配到多台機器上,把資料的讀取錯開時間,就可以達到最大的效率(吞吐量)
hadoop 系統提供了乙個穩定的共享儲存和分析系統;儲存由hdfs 系統支援,分析是由mr 來支援;儲存和計算(分析) 是hadoop 系統的2個核心功能
《Hadoop權威指南4》第1章 初識Hadoop
1.6 apache hadoop發展簡史 1.7 本書包含的內容 未來的資料很大,個人,公共網頁的資料等等都很多。大資料勝於好演算法。硬碟的讀寫速度很慢跟不上資料儲存分析的需要。hadoop的,hdfs和mapreduce解決了資料的儲存和分析的問題。mapreduce進行每一次查詢時要處理整個資...
Hadoop學習筆記1 初識Hadoop
資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...
第1章 初識CSS3
css3是css2的公升級版本,3只是版本號,它在css2.1的基礎上增加了很多強大的新功能。目前主流瀏覽器chrome safari firefox opera 甚至360都已經支援了css3大部分功能了,ie10以後也開始全面支援css3了。在編寫css3樣式時,不同的瀏覽器可能需要不同的字首。...