資料採集的時效性,指的是可進行資料採集的時間與hadoop中工具可訪問數量的時間之間的間隔.採集架構的時間分類會對儲存媒介和採集方法造成很大的影響.一般來說,在設計應用的採集構架之前建議使用以下分類中的一種.
需要注意的是,隨著任務的實現時間達到實時,實現的複雜性和成本也會大大增加.從批量處理處罰(比如使用簡單檔案傳輸)通常是個不錯的選擇.選擇更加複雜的採集方法之前要先使用簡單的方法
hdfs對時效性的要求比較寬鬆,所以可能更加適合成為主要儲存位置.而乙個簡單檔案傳輸或者sqoop任務則適合作為採集資料的工具.
當使用者的需要從簡單的批處理轉向更高頻率的更新時,就應該考慮flume或kafka之類的工具.在這裡,傳輸時間要求不超過2分鐘,所以sqoop與檔案轉換器不適用.而且,因為要求時間不超過2分鐘,所以儲存層可能需要變為hbase或solr,這樣插入與讀取操作會獲得更細粒度.當要求提高到實時水平時,我們首先應該考慮記憶體,然後是永久性儲存.全世界所有的平行化處理都不會有助於將反應要求控制在500毫秒以內,只要硬碟驅動器保持處理操作的狀態.基於這一點,開始進入流處理領域,採用storm或spark steaming之類的工具.這裡要強調的是,這些工具應該真正用於資料處理,而不是像flume或sqoop那樣用於資料採集
資料分析之資料採集
在資料分析前我們要先有資料,這就要考慮資料的 了。資料的 基本上有兩種 直接 和間接 通俗點說,直接資料就是通過我們採集的資料,間接資料就是我們引用別人的資料。自己採集的資料可靠性高,靈活度好,但採集比較麻煩 引用別人資料的方式雖然簡單,但資料可靠性要大打折扣。資料 資料屬性 備註直接資料 日誌資料...
資料採集工具之Sqoop
sqoop專案開始於2009年,最早是作為hadoop的乙個第三方模組存在,後來為了讓使用者能夠快速部署,也為了讓開發人員能夠更快速的迭代開發,sqoop獨立成為乙個apache專案。sqoop是一款開源的工具,主要用於在hadoop hive 與傳統的資料庫 mysql postgresql.間進...
採集專案之使用資料
1 如何用easyui動態載入 標題 2 easyui 官方文件 3.easy ui 左側樹形選單 3.2 easyui tab的一些用法 4.tab的一些用法 5 easyui 利用iframe開啟tab以及在iframe開啟父tab 5.2 5.3 5.4 1 使用easyui,一般需要匯入如下...