資料科學之大資料知識體系大全

2021-09-17 02:21:10 字數 2595 閱讀 8848

一 **資料科學

資料科學(data science)這一概念自大資料崛起也隨之成為資料領域的討論熱點,從去年開始,「資料科學家」便成為了乙個工作職位出現在各種招聘資訊上。那麼究竟什麼是資料科學?大資料和資料科學又是什麼關係?大資料在資料科學中起到怎樣的作用?本文主要是想起到科普作用,使即將或正在從事資料工作的朋友對資料科學工作有乙個全概貌了解,也使各有想法進入大資料領域的朋友在真正從事大資料工作之前對行業的情況有所知曉。資料科學是乙個混合交叉學科(如下圖所示),要完整的成為乙個資料科學家,就需要具備較好的數學和計算機知識,以及某乙個專業領域的知識。所做的工作都是圍繞資料打轉轉,在資料量爆發之後,大資料被看做是資料科學中的乙個分支。

二 **大資料

大資料(big data)其實已經興起好些年了,只是隨著無處不在的感測器、無處不在的資料埋點,獲取資料變得越來越容易、量越來越大、內容越來越多樣化,於是原來傳統的資料領域不得不思考重新換乙個平台可以處理和使用逐漸龐大資料量的新平台。用以下兩點進一步闡述:

吳軍博士提出的乙個觀點:現有產業+新技術=新產業,大資料也符合這個原則,只是催生出來的不僅僅是乙個新產業,而是乙個完整的產業鏈:原有的資料領域+新的大資料技術=大資料產業鏈;

資料使用的範圍,原來的資料應用主要是從現有資料中的資料中進行取樣,再做資料探勘和分析,發掘出資料中的潛在規則用以**或決策,然而取樣始終會捨棄一部分資料,即會丟失一部分潛在規則和價值,隨著資料量和內容的不斷累積,企業越來越重視在資料應用時可以使用全量資料,可以盡可能的覆蓋所有潛在規則從而發掘出可能想到或從未想到的價值。

在我學習和從事大資料相關工作的4年裡,在我有限的知識海洋裡,大資料是乙個以資料流向為主的鏈條或管道,資料從何而來,又去往**,不僅是哲學上的乙個問題,也可以在做資料工作的時候考慮這個問題。如下圖所示,大資料領域可以分為以下幾個主要方向,而這幾個方向又可以分別對應一些工作職位:

1 資料平台

data platform,構建、維護穩定、安全的大資料平台,按需設計大資料架構,調研選型大資料技術產品、方案,實施部署上線。對於大資料領域涉及到的大多數技術都需要求有所了解,並精通給一部分,具備分布式系統的只是背景……

對應職位:大資料架構師,資料平台工程師

2 資料採集

data collecting,從web/sensor/rdbms等渠道獲取資料,為大資料平台提供資料**,如apache nutch是開源的分布式資料採集元件,大家熟知的python爬蟲框架scrapy等。

對應職位:爬蟲工程師,資料採集工程師

3 資料倉儲

data warehouse,有點類似於傳統的資料倉儲工作內容:設計數倉層級結構、etl、進行資料建模,但基於的平台不一樣,在大資料時代,資料倉儲大多基於大資料技術實現,例如hive就是基於hadoop的資料倉儲。

對應職位:etl工程師,資料倉儲工程師

4 資料處理

data processing,完成某些特定需求中的處理或資料清洗,在小團隊中是結合在資料倉儲中一起做的,以前做etl或許是利用工具直接配置處理一些過濾項,寫**部分會比較少,如今在大資料平台上做資料處理可以利用更多的**方式做更多樣化的處理,所需技術有hive、hadoop、spark等。btw,千萬不要小看資料處理,後續的資料分析、資料探勘等工作都是基於資料處理的質量,可以說資料處理在整個流程中有特別重要的位置。

對應職位:hadoop工程師,spark工程師

5 資料分析

data analysis,基於統計分析方法做資料分析:例如回歸分析、方差分析等,天善也有很多資料分析課程。大資料分析例如ad-hoc互動式分析、sql on hadoop的技術有:hive 、impala、presto、spark sql,支援olap的技術有:kylin。

對應職位:資料分析師

6 資料探勘

data mining,是乙個比較寬泛的概念,可以直接理解為從大量資料中發現有用的資訊。大資料中的資料探勘,主要是設計並在大資料平台上實現資料探勘演算法:分類演算法、聚類演算法、關聯分析等。

對應職位:資料探勘工程師

7 機器學習

machine learning,與資料探勘經常一起討論,甚至被認為是同一事物。機器學習是乙個計算機與統計學交叉的學科,基本目標是學習乙個x->y的函式(對映),來做分類或者回歸的工作。之所以經常和資料探勘合在一起講是因為現在好多資料探勘的工作是通過機器學習提供的演算法工具實現的,例如個性化推薦,是通過機器學習的一些演算法分析平台上的各種購買,瀏覽和收藏日誌,得到乙個推薦模型,來**你喜歡的商品。

對應職位:演算法工程師,研究員

8 深度學習

deep learning,是機器學習裡面的乙個topic(非常火的topic),從深度學習的內容來看其本身是神經網路演算法的衍生,在影象、語音、自然語言等分類和識別上取得了非常好的效果,大部分的工作是在調參。不知道大家有否發現現在的google 翻譯比以前的要準確很多,因為google在去年底將其google 翻譯的核心從原來基於統計的方法換成了基於神經網路的方法~so~

對應職位:演算法工程師,研究員

9 資料視覺化

data visualization,將分析、挖掘後的**值資料用比較優美、靈活的方式展現在老闆、客戶、使用者面前,更多的是一些前端的東西,maybe要求一定的美學知識。結合使用者的喜好,以最恰當的方式呈現資料價值。

對應職位:資料工程師,bi工程師

10 資料應用

對應職位:資料工程師

大資料之大資料時代

下面,開啟第一講 大資料之大資料時代 講大資料一定脫離不開乙個大的背景。下面先從大資料背景講起。縱觀整個it發展史,也不過短短幾十年,在這幾十年裡,我們這個資訊化社會經歷了三次大的資訊化浪潮。第一次浪潮是在上個世紀90年代前,1980年前後,pc機進入市場,ibm公司制定了全球的pc標準,即一台電腦...

大資料之大資料技術架構

上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...

理想的電腦科學知識體系

學了這麼多年的計算機,真沒好好梳理過整個電腦科學體系,正好看到一篇帖子討論此問題,就此總結一下吧。形式語言與自動機 automata,書籍 形式語言與自動機 幾何理論 geometry 機器語言程式設計 作業系統 書籍 現代作業系統 作業系統實現 程式設計基礎 書籍 the art of compu...