大資料生態圈所涉及的技術

tb->pb

海量資料的處理需求不再侷限在離線計算當中

但是這種價值需要在海量資料之上，通過資料分析與機器學習更快速的挖掘出來

：所謂資料採集並不是我們理解的資料爬蟲，尤其是我們在工作中遇到的資料很多都是來自系統內的資料，來自資料庫的資料來自日誌的資料。但是這些資料維度是非常多並且複雜的，所以在分析前我們就需要把這些資料採集來。資料採集常用的手段有：

sql／python

，其中sql是資料分析的必備技能，python是加分項。

：採集來的資料一般是不規整的，字段缺失或者有錯誤是常有的事情，如果我們不對這些資料進行清洗，分析出的結果就會出現各種異常。在資料清洗這一塊就需要用到一些簡單的統計學基礎。

：資料分析最重要的是行業知識和邏輯思維能力

。行業知識往往是通過在行業中的工作經歷來獲取的，當然作為學生也可以通過一些行業相關的資料報告和雜誌來獲得。而邏輯思維能力，需要後天的不斷的鍛鍊，常見的鍛鍊方法是多看資料分析實戰相關的書籍，學習作者的思維方式；經常和小夥伴一起做頭腦風暴；對於一些工作生活中有趣的經驗主義的事情嘗試通過資料角度去解答。

讓結論更加的容易理解。目前國內外的資料視覺化的產品也非常多，常用的有：

echarts／tableau／excel／python 等、

。現在datax已經是3.0版本，支援很多資料來源。你也可以在其之上做二次開發。有興趣的可以研究和使用一下，對比一下它與sqoop

sparksql、impala和presto.

這三種框架基於半記憶體或者全記憶體，提供了sql介面來快速查詢分析hadoop上的資料，對比一下效能測試：