hdfs:分布式檔案系統
pig:資料分析工具
hbase:列式資料庫
hive:sql語言到mapreduce轉換器,執行在hadoop基礎上的類似資料庫的軟體
環境:伺服器:esxi
虛擬機器:vmware
ssh:windows平台用cygwin,linux可以直接使用
hadoop版本之間差異比較大,學習時應當用舊版本較好
google的低成本之道:
不使用超級計算機,不使用儲存,大量使用普通的pc伺服器,提供有冗餘的集群服務
全世界多個資料中心,有些附帶發電廠
運營商向google倒付費
1.在oracle中模糊查詢like的話,會影響執行速度,但是在搜尋的過程中卻只用了很短的時間。
2.網頁價值的計算,page-rank頁面價值排行
原理:倒排索引
舉例:乙個網頁為 "我愛北京天安門"
事先為每個網頁建立乙個倒敘索引,對相關關鍵字進行排序,從而在搜尋的時候直接尋找對飲關鍵字最多的網頁
page rank成就了google今天的成就
map-reduce思想,思想為:將乙個巨大的矩陣節點分布式處理,利用節點的積成效應對大資料完不成的事情通過分布式伺服器得已處理
google帶來的思想:
gfs:節點新增冗餘,放置失敗
map-reduce:通過分布式節點,讓資料計算機制大大減少容量限制
bigtable:hbase是bigtable的山寨版
Hadoop 三 HDFS認識和理解
一 hdfs hadoop distributed file system的英文首字母縮寫 意思是hadoop分布式檔案系統,主要用來解決海量資料的儲存問題 概念 hdfs是乙個分布式的 何為分布式?在空間的任意點上隨意分布 由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。其次是乙個檔案...
hadoop設計基礎和目標 筆記01
硬體錯誤是常態,因此需要冗餘.流式資料訪問,即資料批量讀寫而非隨機讀寫,hadoop擅長做的資料分析而不是事務處理 大規模資料集 簡單一致性模型。為了降低系統複雜度,對檔案採用一次性寫多次讀的邏輯設計,也就是說 檔案一經過寫入,關閉就再也不能修改!程式採用 資料就近 原則分配節點執行.namenod...
程式開發思維 個人對程式開發的認識和思想
我將程式開發大致分為基礎 工具 管理三部分,我認為這三者是不可分割的,甚至在工作流程中會形成乙個閉環,推動著程式開發。先想象一下,程式開發 目的地 基礎 怎麼去開車 開哪一條路 工具 車 資料結構在概念上和內容上都是乙個非常難以理解的方面,所以我在這裡將資料結構比喻成思路,那何又為思路呢?思路,故名...