apache hadoop專案包括以下四個主要模組
(1)hadoop common:hadoop的通用工具集
(2)hadoop distributed file system (hdfs):分布式檔案系統
(3)hadoop yarn:任務排程、集群資源管理框架
(4)hadoop mapreduce:基於yarn的並行處理程式設計模型
大資料處理流程
(1)採集
在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,如火車票售票**和**,它們併發的訪問量在峰值時達到上百萬,需要在採集端部署大量資料庫才能支撐,且如何在這些資料庫之間進行負載均衡和分片是需要深入的思考和設計的。
(2)匯入和預處理
將採集的資料統一的集中起來,並作出簡單的處理與預處理結果。導人與預處理過程的特點和挑戰主要是導人的資料量大,每秒的導人量經常會達到百兆,甚至千兆級別
(3)統計分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對儲存於其內的海量資料進行普通的分析和分類彙總等,以滿足大多數常見的分析需求。統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是i/o會有極大的占用。
(4)挖掘
與統計和分析過程不同的是,資料探勘一般沒有什麼預先設定好的主題,主要是在現有資料上面進行基於各種演算法的計算,從而起到**( predict )的效果,以便實現一些高階別資料分析的需求。比較典型演算法有用於聚類的k 一means 、用於統計學習的svm 和用於分類的***** bayes ,主要使用的工具有hadoop 的mahout 等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並且計算涉及的資料量和計算量都很大,另外,常用資料探勘演算法都以單執行緒為主。資料來自各個方面,在面對龐大而複雜的大資料,選擇乙個合適的處理工具顯得很有必要。工欲善其事,必先利其器,乙個好的工其不僅可以使工作事半功倍,也可
以讓人們在競爭日益激烈的雲計算時代,挖掘大資料價值,及時調整戰略方向。
大資料基礎知識
一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...
大資料基礎知識(待續)
最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...
大資料基礎知識總結
1.什麼是大資料 維基百科對於大資料給出了乙個定性的描述 大資料是指無法使用傳統和常用的軟體技術和工具在一定時間內完成獲取 管理和處理的資料集。從技術特點來看,大資料滿足5v模型 大體量 volume 多樣性 variety 時效性 velocity 準確性 veracity 大價值 value 2...