大資料帶來的革命性變革:
1)成本降低
2)軟體容錯,硬體故障視為常態
3)簡化分布式平行計算
資料分析師的必備技能:
資料採集:所謂資料採集並不是我們理解的資料爬蟲,尤其是我們在工作中遇到的資料很多都是來自系統內的資料,來自資料庫的資料來自日誌的資料。但是這些資料維度是非常多並且複雜的,所以在分析前我們就需要把這些資料採集來。資料採集常用的手段有:sql/python,其中sql是資料分析的必備技能,python是加分項。
資料清洗:採集來的資料一般是不規整的,字段缺失或者有錯誤是常有的事情,如果我們不對這些資料進行清洗,分析出的結果就會出現各種異常。在資料清洗這一塊就需要用到一些簡單的統計學基礎。
資料分析:資料分析最重要的是行業知識和邏輯思維能力。行業知識往往是通過在行業中的工作經歷來獲取的,當然作為學生也可以通過一些行業相關的資料報告和雜誌來獲得。而邏輯思維能力,需要後天的不斷的鍛鍊,常見的鍛鍊方法是多看資料分析實戰相關的書籍,學習作者的思維方式;經常和小夥伴一起做頭腦風暴;對於一些工作生活中有趣的經驗主義的事情嘗試通過資料角度去解答。
資料視覺化:讓結論更加的容易理解。目前國內外的資料視覺化的產品也非常多,常用的有:echarts/tableau/excel/python等
為了應對大資料的這幾個特點,開源的大資料框架越來越多,先列舉一些常見的:
檔案儲存:hadoop hdfs、tachyon、kfs
離線計算:hadoop mapreduce、spark
流式、實時計算:storm、spark streaming、s4、heron、
k-v、nosql資料庫:hbase、redis、mongodb
資源管理:yarn、mesos
日誌收集:flume、scribe、logstash、kibana
訊息系統:kafka、stormmq、zeromq、rabbitmq
查詢分析:hive、impala、pig、presto、phoenix、sparksql、drill、flink、kylin、druid
分布式協調服務:zookeeper
集群管理與監控:ambari、ganglia、nagios、cloudera manager
資料探勘、機器學習:mahout、spark mllib
資料同步:sqoop
任務排程:oozie
大資料生態圈所涉及的技術
tb pb 海量資料的處理需求不再侷限在離線計算當中 但是這種價值需要在海量資料之上,通過資料分析與機器學習更快速的挖掘出來 所謂資料採集並不是我們理解的資料爬蟲,尤其是我們在工作中遇到的資料很多都是來自系統內的資料,來自資料庫的資料來自日誌的資料。但是這些資料維度是非常多並且複雜的,所以在分析前我...
大資料生態圈涉及到哪些內容
首先,大資料技術尚處在落地應用的初期,大資料生態圈尚未成熟,所以當前大型科技公司也紛紛開始布局打造自己的大資料生態體系,從大資料自身的價值空間來看,大資料生態圈的想象空間會非常大。產業鏈的基礎是技術解決方案,大資料的技術解決方案可以分成兩大類,一類是大資料平台,另一類是大資料應用,當前整個大資料產業...
大資料生態圈涉及到哪些內容
首先,大資料技術尚處在落地應用的初期,大資料生態圈尚未成熟,所以當前大型科技公司也紛紛開始布局打造自己的大資料生態體系,從大資料自身的價值空間來看,大資料生態圈的想象空間會非常大。產業鏈的基礎是技術解決方案,大資料的技術解決方案可以分成兩大類,一類是大資料平台,另一類是大資料應用,當前整個大資料產業...