hadoop是什麼?
hadoop能做什麼?
hadoop擅長日誌分析,facebook就用hive來進行日誌分析,2023年時facebook就有非程式設計人員的30%的人使用hiveql進行資料分析;**搜尋中的自定義篩選也使用的hive;利用pig還可以做高階的資料處理,包括twitter、linkedin 上用於發現您可能認識的人,可以實現類似amazon.com的協同過濾的推薦效果。**的商品推薦也是!在yahoo!的40%的hadoop作業是用pig執行的,包括垃圾郵件的識別和過濾,還有使用者特徵建模。(2023年8月25新更新,天貓的推薦系統是hive,少量嘗試mahout!)
hadoop能為我司做什麼?大資料量儲存:分布式儲存日誌處理: hadoop擅長這個海量計算: 平行計算etl:資料抽取到oracle、mysql、db2、mongdb及主流資料庫使用hbase做資料分析: 用擴充套件性應對大量的寫操作—facebook構建了基於hbase的實時資料分析系統機器學習: 比如apache mahout專案搜尋引擎:hadoop + lucene實現資料探勘:目前比較流行的廣告推薦大量地從檔案中順序讀。hdfs對順序讀進行了優化,代價是對於隨機的訪問負載較高。資料支援一次寫入,多次讀取。對於已經形成的資料的更新不支援。資料不進行本地快取(檔案很大,且順序讀沒有區域性性)任何一台伺服器都有可能失效,需要通過大量的資料複製使得效能不會受到大的影響。使用者細分特徵建模個性化廣告推薦智慧型儀器推薦hadoop實際應用:hadoop+hbase建立nosql分布式資料庫應用
flume+hadoop+hive建立離線日誌分析系統
flume+logstash+kafka+spark streaming進行實時日誌處理分析
酷狗**的大資料平台
京東的智慧型**鏈**系統
說明:整理於網路
Hadoop學習之安裝Hadoop
1.用xftp工具將hadoop 2.7.2.tar.gz匯入到opt目錄下面的software資料夾 2.進入到hadoop安裝包路徑下 cd opt software 3.解壓安裝檔案到 opt module下面 tar zxvf hadoop 2.7.2.tar.gz c opt module...
hadoop之hadoop基礎介紹
hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...
Hadoop學習筆記之Hadoop簡介
apache hadoop 是乙個開源的 可靠的 靈活的 分布式的計算系統 來自官網 主要受google 三篇 的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...