大資料處理的流程主要包括以下四個環節:採集、匯入(預處理)、統計(分析)、挖掘,下面針對這四環節進行簡單闡述。
大資料處理之一:採集
在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票**和**,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大資料處理之二:匯入/預處理 雖然採集端本身會有很多資料庫,但是如果要對這些海量資料進行有效的分析,還是應該將這些來自前端的資料匯入到乙個集中的大型分布式資料庫,或者分布式儲存集群,並且可以在匯入基礎上做一些簡單的清洗和預處理工作。也有一些使用者會在匯入時使用來自twitter的storm來對資料進行流式計算,來滿足部分業務的實時計算需求。
匯入與預處理過程的特點和挑戰主要是匯入的資料量大,每秒鐘的匯入量經常會達到百兆,甚至千兆級別。
大資料處理之三:統計/分析 統計與分析主要利用分布式資料庫,或者分布式計算集群來對儲存於其內的海量資料進行普通的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到emc的greenplum、oracle的exadata,以及基於mysql的列式儲存infobright等,而一些批處理,或者基於半結構化資料的需求可以使用hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是i/o會有極大的占用。
大資料處理之四:挖掘
與前面統計和分析過程不同的是,資料探勘一般沒有什麼預先設定好的主題,主要是在現有資料上面進行基於各種演算法的計算,從而起到**(predict)的效果,從而實現一些高階別資料分析的需求。比較典型演算法有用於聚類的
kmeans、用於統計學習的svm和用於分類的*****bayes,主要使用的工具有hadoop的mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並且計算涉及的資料量和計算量都很大,常用資料探勘演算法都以單執行緒為主。
整個大資料處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是乙個比較完整的大資料處理
大資料處理隨筆
1.mssql當資料庫資料超過1000萬的時候超時是正常的,所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用 開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫,只可以查詢操作,這樣的話可以在這個表上面建立索引...
大資料處理方案
假設目前有一千萬個記錄 這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1g。2 32為40億多,所以給定乙個數可能在,也可能不在其中 這裡我們把40億個...
jdbc大資料處理
一 大資料也稱為lof large object lob又可分為clob和blob,clob用於儲存大文字,blob用於儲存二進位制資料。二 在mysql中,只有blob和text。text又可分為tinytext,text,mediumtext和longtext blob又可分為tinyblob,...