資料科學家 站在大資料金字塔尖的人

2022-09-18 16:30:13 字數 2965 閱讀 4679

資料科學家:站在大資料金字塔尖的人

現在的網際網路行業,越來越多的企業對資料科學家

求賢若渴。

雖然資料科學家的需求一直在快速增長,但事實是在業內還沒有對資料科學家的準確定義。有人開玩笑說,「資料科學家就是住在矽谷的資料分析師」,甚至有人畫了這樣的漫畫:

沒錯,找到一位優秀的資料科學家和找到乙個理解資料科學家是做什麼的人一樣難。

要理解資料科學家是做什麼,首先要理解人盡皆知卻總被誤讀的大資料:大資料不是大量的資料,而是複雜的資料。

《大資料時代》聯席作者kenneth cukier在ted上的熱門演講:

《big data is better data》,告訴你大資料驅動技術和設計的未來,以及大資料的「好」與「壞」。

這些解決複雜資料帶來的問題的人,就是資料科學家。

資料科學家在工作中是怎樣解決問題的呢?

分享兩個共享經濟的典範:airbnb和uber——在運用大資料方面的經驗。

1、airbnb

在airbnb,工程師要解決這樣乙個問題:如何讓使用者了解乙個自己從來沒去過的地方?如何知道哪個地方最適合自己的旅行?

airbnb accommodations (red) and

traditional accommodations (blue) in san francisco

當使用者在搜尋乙個住宿的地方時,airbnb的「location

relevance model」會通過airbnb社群告訴未來的客人**是更好的住宿地。

當使用者在尋找想體驗的新地方時,「airbnb

airbnb的「discovery

airbnb甚至造了乙個叫做「at-at」的複雜工具,幫助使用者更深入地了解某個地點,包括地理資訊無法描述的文化或宗教上的區分。

2、uber

縮短開著空車去接下一位乘客的時間和乘客等待的時間是uber的車主和乘客的共同需求,他們希望這些時間越短越好。為此,uber的資料科學家建立了「location-based

demand models」。

uber heatmap in san francisco

每天實時更新的熱點地圖(heatmaps)可以有效幫助車主縮短空載時間,同時幫乘客減少等待時長。下一步,這張圖甚至可以**,這樣車主會知道提前去**等待可以載到更多的乘客。

資料科學家的由來和定義

雖然資料科學三十年前就誕生了,但是資料科學家卻是幾年前剛出現的乙個新詞。在《資料之美》一書中,我們可以看到facebook的資料科學家的起源:

在facebook,我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:在任意給定的一天,團隊的乙個成員可以用python實現乙個多階段的處理管道流、設計假設檢驗、用工具r在資料樣本上執行回歸測試、在hadoop上為資料密集型產品或服務設計和實現演算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了「資料科學家」這種角色。

所以,用一句話總結「資料科學家」的定義:

運用統計分析、機器學習、分布式處理等技術,從大量資料中提取出對業務有意義的資訊,以易懂的形式傳達給決策者,並創造出新的資料運用服務的人才。

資料科學家有哪幾種類別

為了更好地闡釋資料科學家,我們將它分為三類:

理論資料科學家致力於資料科學的理論研究,為其他的資料科學家創造框架和工具。本質上是將統計資料、資料儲存和電腦科學在理論層面應用於大資料的學者

應用資料科學家對於如何運用大資料有更好的理解。科學需要嚴謹,我認為資料應用植根於學術嚴謹,但是在應用層面工作。應用資料科學家的工作是先進行架設,再用大資料進行驗證。每個人都會受惠於他們的研究發現和工具。

行業資料科學家用應用資料科學地解決某個具體的市場問題、行業、生意,實現利益最大化的單一目的。行業資料科學家得擅長溝通,能夠讓他們的發現應用於商業。將工商、經濟和會計方面的經驗應用在商業領域是他的價值所在。與商業分析師和商業顧問的角色有點相似。

要成為一名資料科學家,需要掌握哪些核心技能?

作為一名資料科學家,一般需要程式設計和資料庫、數學&統計、交流和視覺化、領導力和軟技能:四個方面的技能。

1、程式設計和資料庫

一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景,掌握對處理大資料所必需的hadoop、mahout等大規模並行處理技術與機器學習相關的技能。一般能利用python熟練的獲取資料,整理資料,並會使用matplotlib展現資料。

2、數學、統計和資料探勘

除了數學、統計方面的素養之外,還需要具備使用spss、sas等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境「r」最近備受矚目。r的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為cran(the

comprehensive r archive

network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。

3、資料視覺化

資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發web原型,使用外部api將圖表、地圖、dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。

4、領導力和軟技能

資料科學家不僅要具有黑客的頭腦,對資料有好奇心,還要對商業有熱情,是有影響力、有創造力,能解決問題的人。

總之,資料科學家之所以被稱為「科學家」,而區別於「資料工程師」和「資料分析師」,其根本在於對資料有極端敏銳的直覺和本質的認知,對問題和業務有深入的洞察和理解,因而能夠解決複雜資料帶來的問題。

總結在過去,對於「資訊科技」,我們通常只關注「t」-

技術、硬體,因為這是切實可見的東西。現在,我們需要把目光放在「i」- 資訊上,它不是那麼切實可見,但某種程度上卻更加重要。

在人類永無止境的探索過程中,我們可以從我們能收集的資訊中,來了解這個世界,以及人類在這個世界中所處的地位。

這就是為什麼大資料如此重要。

這也是資料科學家工作的意義。

資料科學家的成長之路

背景 平凡之路 凡事預則立,不預則廢。結合國內外的行業現狀,和資料科學領域的培養模式,我把資料科學的學習過程分成以下四個級別 入門 初級 中級 高階。吃瓜群眾就是喜歡分級,哈哈哈 高階之上,我認為還有乙個級別 高階,強調跨學科的綜合能力,以及團隊協作能力。由於我不是科班出身,學得不夠系統,所以現在的...

大資料到底好學嗎 資料科學家論與大資料學習知識誤區

地球推薦乙個大資料學習群 119599574晚上20 10都有一節 免費的 大資料直播課程,專注大資料分析方法,大資料程式設計,大資料倉儲,大資料案例,人工智慧,資料探勘都是純乾貨分享,你願意來學習嗎?大型資料應用程式是通用智慧型。人工智慧 從而提高人們對事物和決策能力的認識,最終實現社會的普遍智慧...

資料科學家Docker入門指南

摘要 docker容器那麼強大?可以應用道資料科學領域?看來學習一下!docker容器是通過虛擬化開發和部署應用程式的一種越來越流行的方式,它對資料科學家有用嗎?當然,本指南就會向你介紹它的作用,並手把手教你快速入門。docker是一種越來越流行的,使在容器中開發 部署和執行應用程式變得更容易的工具...