大資料的收集與處理技術分享

2021-09-24 06:16:55 字數 1415 閱讀 3990

大資料從收集、處理、到最終落地為可商業化、可以惠及普羅大眾的解決方案、產品的閉環鏈條。所謂從群眾中來,到群眾中去。正是這個鏈條的關閉、完成了大資料的工業化。

之所以大資料概念能夠在近3年突然引爆,恰恰就是因為現階段處理和收集大資料的能力發生了質變,使得人類社會走進了大資料應用普及的時代:

1、大資料的收集

兩個技術使得大資料的收集開始變得容易:

各種感測器的廉價化和部署覆蓋率的大大提高。比如我們最熟悉的就是遍布身邊的攝像頭,不到10年的時間,城市裡的任何乙個角落放眼望去就全部是攝像頭了。

網際網路技術的發展。其實電腦也是一種感測器,只不過其記錄的資料格式更加不規範和多樣化。隨著網際網路技術的大發展,能夠接入網際網路的終端越來越便宜、在人群中覆蓋率不斷提高,以致於我們擁有了乙個可以覆蓋大部分人口的感測器網路。比如我所在的**網,每天有億級別的使用者訪問、購物。在傳統的工業時代,我們永遠無法知道乙個人在超市做了什麼、也很難分析每個人在超市買了什麼東西(儘管你有收銀資料)。而在網際網路這個每個人都帶著感測器的時代、一切行為都可能被記錄、分析、用於優化你未來的體驗(當然也可能被壞人用於作惡,就好比火藥可以用於開山修壩也可用於殺人作惡,技術本身是與道德無關的)。

2、大資料的處理

廉價的平行計算解決方案,如mapreduce框架、mpi框架、gpu計算。新的高效能平行計算方法層出不窮。以往在實驗室和國家級專案中才能使用的海量資料儲存、計算能力如今可以被以廉價、可擴充套件、易維護、可租賃(雲計算)得方式獲得。

像@李搏揚提到的巨型粒子對撞機、實際代表的是大資料的實驗室形態,那個時代我們為了做乙個大資料分析要首先搭建乙個海量感測器集群、然後需要非常懂計算機的人利用很昂貴的計算機集群寫一系列很少有人能看懂的(所以幾乎沒有復用性)**來進行分析。而這樣的分析和實驗,只是為了乙個或者一系列比較侷限的目的和用途。(當然我不是對探索希格斯粒子表示任何不敬,這是乙個偉大的事業)而大資料的工業化時代,意味著模組化、流水線、高復用性。

資料庫有大量現成的實現、框架;封裝好的資料可以被不太難於學習的計算機指令碼語言和封裝好的分析工具進行分析(比如sas、r、hivesql、hadoop等等)。而又有同時熟悉業務和資料分析方法的分析師、產品經理、開發把他們很快應用到業務、專案的開發中去。

這樣就形成了乙個大資料從收集、處理、到最終落地為可商業化、可以惠及普羅大眾的解決方案、產品的閉環鏈條。所謂從群眾中來,到群眾中去。正是這個鏈條的關閉、完成了大資料的工業化。

作者強力推薦閱讀文章:

大資料工程師必須掌握開源工具彙總

大資料高階工程師教你如何讀懂大資料核心技術

頂級大資料工程師需要掌握的技能

大資料、機器學習和人工智慧未來發展的8個因素

大資料 方法與技術

economist 的,一篇 mckinsey quarterly 的,和一篇 forbes 的。其實這三篇都是空話。通篇無非就是在講 1 資料真的很大 2 各行各業都要學會處理大資料。然而我真正關心的是 怎麼做 於是 另一篇文章 進入視野。不過最精彩的還是麥肯錫的 分析報告 其中最吸引我的是 方法...

福利 微分享 大資料入門技術初探

提到大資料技術,大多數開發者首先想到的技術莫過於hadoop和spark。他們都是大資料框架,也是當前應用最廣泛的大資料框架。4月11晚8點 本周二 csdn大資料學習班將迎來咱們的第一期知識大咖分享活動,主要分享開源的大資料技術,特別適合大資料初學者們學習。嘉賓介紹 王福振,畢業於河北工業大學,資...

分享大資料技術Hbase和Hive詳解

今天給大家介紹一下關於零基礎學習大資料之hbase和hive是多麼重要的技術,那麼兩者有什麼區別呢?下面我們一起來看一下吧。apachehive是乙個構建在hadoop基礎設施之上的資料倉儲。通過hive可以使用hql語言查詢存放在hdfs上的資料。hql是一種類sql語言,這種語言最終被轉化為ma...