2014 年,馬雲提出,「人類正在從 it 時代走向 dt 時代」。如果說在 it 時代是以自我控制、自我管理為主,那麼到了 dt(data technology) 時代,則是以服務大眾、激發生產力為主。在大資料時代,傳統的軟體已經無法處理和挖掘大量資料中的資訊。最重要的變革著就是谷歌的「三架馬車」。谷歌在 2004 年左右相繼發布谷歌分布式檔案系統 gfs、大資料分布式計算框架 mapreduce、大資料 nosql 資料庫 bigtable ,這三篇**奠定了大資料技術的基石。變革總是像谷歌那樣的大公司主導的,在當時大部分公司還在致力於提高單機效能時,谷歌已經開始設想把資料儲存、計算分給大量的廉價計算機去執行。在 dt 時代,人們比以往任何時候更能收集到更豐富的資料。資料正在變革我們的生活,催生了大資料行業的發展。
受 google 的**啟發,2004 年 7 月,doug cutting 和 mike cafarella 在 nutch 中實現了類似 gfs 的功能,即後來 hdfs 的前身。後來 2005 年 2 月,mike cafarella在 nutch 中實現了 mapreduce 的最初版本。到 2006 年 hadoop 從 nutch 中分離出來並啟動獨立專案。hadoop 的開源推動了後來大資料產業的蓬勃發展,帶了了一場深刻的技術革命。
接下來,大資料相關技術不斷發展,開源的做法讓大資料生態逐漸形成。由於 mapredece 程式設計繁瑣,facebook 貢獻 hive,sql 語法為資料分析、資料探勘提供巨大幫助。第乙個運營 hadoop 的商業化公司 cloudera 也在 2008 年成立。
由於記憶體硬體已經突破成本限制,2014 年 spark 逐漸替代 mapreduce 的地位,受到業界追捧。spark 在記憶體內執行程式的運算速度能做到比 hadoop mapreduce 的運算速度快 100 倍,並且其執行方式適合機器學習任務。spark 在 2009 年誕生於 uc berkeley amplab, 2010 年開源,2013 年貢獻到 apache **會。
spark 和 mapreduce 都專注於離線計算,通常時間是幾十分鐘甚至更長時間,為批處理程式。由於實時計算的需求,流式計算引擎開始出現,包括 storm、flink、spark streaming。
大資料儲存和處理技術的發展同時也帶動了資料分析、機器學習的蓬勃發展,也促使了新興產業的不斷湧現。大資料技術是基石,人工智慧的落地是下乙個的風口。身處在網際網路行業中,感覺到技術進步很快,要略去浮躁,把握住變革的到來。
現在的社會是乙個高速發展的社會,科技發達,資訊流通,人們之間的交流越來越密切,生活也越來越方便,大資料就是這個高科技時代的產物。
大資料的價值體現在以下幾個方面:
1)對大量消費者提供產品或服務的企業可以利用大資料進行精準營銷
2) 做小而美模式的中小微企業可以利用大資料做服務轉型
3) 面臨網際網路壓力之下必須轉型的傳統企業需要與時俱進充分利用大資料的價值
大資料通常具有以下幾種特點:
1、大量:即資料體量龐大,包括採集、儲存和計算的量都非常大。
2、高速:要求處理速度快,從各型別的資料中快速獲得**值的資訊
3、多樣:資料種類繁多
4、價值:價值密度低,由於資料產生量巨大且速度非常快,必然形成各種有效資料和無效資料錯雜的狀態,因此資料價值的密度低。
大資料技術發展可以分為六個方向:
1、在大資料採集與預處理方向。這個方向最常見的問題是資料的多源和多樣性,導致資料的質量存在差異,影響到資料的可用性。
2、大資料儲存與管理方向。這個方向最常見的挑戰是儲存規模大,儲存管理複雜,需要兼顧結構化、非結構化和半結構化的資料。分布式檔案系統和分布式資料庫相關技術的發展正在有效的解決這些問題。其中大資料索引和查詢技術、實時及流式大資料儲存與處理的發展。
3、大資料計算模式方向。如今出現了多種典型的計算模式,包括大資料查詢分析計算、批處理計算,流式計算、迭代計算、圖計算、記憶體計算。
4、大資料分析與挖掘方向。在資料類迅速膨脹的同時,還要進行深度的資料分析和挖掘,因此越來越多的大資料分析工具和產品應運而生。
5、大資料視覺化分析方向。通過視覺化方式來幫助人們探索和解釋複雜的資料,有利於決策者挖掘資料的商業價值,進而有助於大資料的發展。
6、大資料安全方向。當我們在用大資料分析和資料探勘獲取商業價值的時候,黑客很可能在向我們攻擊,收集有用的資訊。通過檔案訪問控制來限制呈現對資料的操作、基礎裝置加密、匿名化保護技術和加密保護等技術正在最大程度的保護資料安全。
大資料主要有三個就業方向,大資料系統研發類人才、大資料應用開發類人才和大資料分析類人才。
在此三大方向中,各自的基礎崗位一般為大資料系統研發工程師、大資料應用開發工程師和資料分析師。又可分為以下十大職位:
1、etl研發
etl研發,主要負責將分散的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎。
2、hadoop開發
hadoop的核心是hdfs和mapreduce.hdfs提供了海量資料的儲存,mapreduce提供了對資料的計算。隨著資料集規模不斷增大,而傳統bi的資料處理成本過高,企業對hadoop及相關的廉價資料處理技術如hive、hbase、mapreduce、pig等的需求將持續增長。
3、視覺化(前端展現)工具開發
視覺化開發就是在可視開發工具提供的圖形使用者介面上,通過操作介面元素,由可視開發工具自動生成應用軟體。還可輕鬆跨越多個資源和層次連線您的所有數 據,經過時間考驗,完全可擴充套件的,功能豐富全面的視覺化元件庫為開發人員提供了功能完整並且簡單易用的元件集合,以用來構建極其豐富的使用者介面。
4、資訊架構開發
大資料重新激發了主資料管理的熱潮。充分開發利用企業資料並支援決策需要非常專業的技能。資訊架構師必須了解如何定義和存檔關鍵元素,確保以最有效的方式進行資料管理和利用。資訊架構師的關鍵技能包括主資料管理、業務知識和資料建模等。
5、資料倉儲研究
資料倉儲的專家熟悉teradata、neteeza和exadata等公司的大資料一體機。能夠在這些一體機上完成資料整合、管理和效能優化等工作。
6、olap開發
7、資料科學研究
資料科學家是分析師、藝術家的合體,需要具備多種交叉科學和商業技能。
8、資料**(資料探勘)分析
營銷部門經常使用**分析**使用者行為或鎖定目標使用者。**分析開發者有些場景看上有有些類似資料科學家,即在企業歷史資料的基礎上通過假設來測試閾值並**未來的表現。
9、企業資料管理
企業要提高資料質量必須考慮進行資料管理,並需要為此設立資料管家職位,這一職位的人員需要能夠利用各種技術工具匯集企業周圍的大量資料,並將資料清洗 和規範化,將資料匯入資料倉儲中,成為乙個可用的版本。然後,通過報表和分析技術,資料被切片、切塊,並交付給成千上萬的人。擔當資料管家的人,需要保證 市場資料的完整性,準確性,唯一性,真實性和不冗餘。
10、資料安全研究
資料安全這一職位,主要負責企業內部大型伺服器、儲存、資料安全管理工作,並對網路、資訊保安專案進行規劃、設計和實施。資料安全研究員還需要具有較強的管理經驗,具備運維管理方面的知識和能力,對企業傳統業務有較深刻的理解,才能確保企業資料安全做到一絲不漏。
大資料 什麼是大資料
1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...
大資料 什麼是大資料?
海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...
大資料 什麼是大資料?
在網際網路技術發展到至今階段,大量日常,工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的技術應運而生,這就是大資料技術。換個角度說,大資料是 有海量的資料 有海量的資料進行挖掘的需求,有對海量資料進行挖...