資料科學家 21世紀最性感的工作

2021-06-28 23:10:16 字數 2254 閱讀 2959

大部分資料科學家擔任公司產品開發或營銷部門的職位,或是效力於首席技術官。

資料科學家的先天特性包括好奇心、創造力、客觀、有條理地思考能力與對細節的專注力,她強調。

資料科學家分成兩種型別。

第一種型別--他們是真正的科學家,研究創造演算法和方法,發表**,並積極參與這些規則的溝通。這些單個的人物常見於以演算法和方法為核心的研究機構和學術機構(想想谷歌、亞馬遜和華爾街)。

第二種型別--這個型別的人群更接近於我們今天提到的僱傭市場上的人--他們不是科學家而是資料從業者。他們都是統計學與數學建模及開發領域的專家,掌握並採用定量分析方法,設計、測試和部署模型。

目前,大資料就是類似於類似 hadoop、nosql、hive 以及 r 那樣的分布式資料架構和工具的乙個大熔爐。在這種高技術環境下,資料科學家充當了這些系統和業務側領域專家之間資訊傳遞者與中介。

資料科學家有三個主要角色:

資料架構、

機器學習以及分析。

資料科學家有三個主要角色:資料架構、機器學習以及分析。

資料架構

降低複雜性的關鍵是限制範圍。幾乎所有的電商都關心使用者行為的捕捉—活動、購物、離線交易以及社會化資料,幾乎每乙個電商也都會有產品目錄和客戶檔案。

只要把範圍限制到這一基本功能上,就可以為標準資料輸入建立模板,從而大大簡化資料捕捉與管道連線。在 2/8 原則下(80% 的大資料用例可利用 20% 的技術實現),我們不需要把所有不同的資料架構和工具(hadoop、hbase、 hive、pig、cassandra 以及 mahout)都打包進來。

機器學習

好吧,資料架構似乎可以用系統搞定,機器學習總得要人來調教吧。如果需求是高度定製化的話,也許資料科學家是必要的。這裡面的很多事情都可以抽象出來,像推薦引擎和個性化系統等。比方說,資料科學家的很大一部分工作是做出「特徵」模式,即把輸入資料組合好,讓機器有效學習。過程差不多就是資料科學家把資料擺弄好然後塞進機器,再按一下「啟動」即可,資料科學家的工作只是需要幫助機器以一種有意義的方式來審視這個世界。

可是如果按照單個領域來看,特徵建立也是可以模板化的。比方說,每個電子商務**都有購買流和使用者細分的概念。如果領域專家可以直接將其思路編碼進系統,將領域體現到系統裡面去,那麼資料科學家這個翻譯和中介是不是就可以省掉了?

分析 從資料當中自動分析出最有價值的東西從來都不是一件易事。但是提供針對單個領域的***是有可能的—這可以讓業務專家做試驗,就像資料科學家那樣。這似乎是乙個最容易解決的問題,因為市場上早已經有了各種特定領域的分析產品。

但是這些產品對於領域專家來說約束太多,不易接近。介面友好性絕對還有改進的空間。我們還需要考慮機器如何從分析得出的結果中學習。這是關鍵的反饋環路,業務專家希望能修改這個環路。這又是乙個提供模板化介面的機會。

正如 cms 領域的情況一樣,這些解決方案也不能包治百病。但是針對泛化的一組資料問題採用技術解決方案可以緩解資料科學家的瓶頸問題。一旦領域專家能夠直接跟機器學習系統協作,我們就能夠進入大資料的新時代—乙個人和機器可以相互學習的新世紀。也許到了那個時候,大資料能解決的問題就能多於它製造的問題了。

**分析是乙個全新事物,就在五到七年前,還沒有人在大學以外的地方做這件事。但是現在,它已經步入了主流。如果你學了資料學,並且學得很好,那麼在你畢業以後,肯定會有乙份工作等著你。

「資料科學家」其實是從「大資料」引發的術語混亂中形成的。資料科學的核心能力被定義為:sql、統計、**建模和程式設計、python等,這些聽起來很合理。但是很快就有更多名詞新增到其中:hadoop/mapreduce、機器學習、視覺化,甚至還有傳統的數學、物理、電腦科學等類似能力。

許多人呼籲專業領域、商業智慧型、創造力及表達能力也是同樣重要的。乙個資料科學家不能只擅長數字(這種人被稱為統計學家或分析師),也要能夠理解業務:什麼樣的資料或結果才是有參考性的;能夠找到新的資料集並為其創造新產品;然後能夠讓ceo們理解這一切。這是乙個艱鉅的任務,這個世界上這類人是很少的。作為頂尖的資料科學家,不要求他們對環境做出什麼積極的改變,但是需要他們嘗試做一些真正先進的東西,幫助大家更好的解決業務上的問題。

資料科學家的六種能力:

1.對資料的提取與綜合能力;

2.統計分析能力;

3.資料洞察與資訊挖掘能力;

4.開發軟體能力;

5.網路程式設計能力;

6.資料的視覺化表示能力。

資料科學家涉及學科:

1.電腦科學:資料獲取、資料解析、資料存放、和資料安全

2.數理統計學:資料分析、資料過濾、資料探勘、和資料優化

3.圖形設計學:顯示資料結果,比如將資料表達成三維圖形,以便更好地理解和利用

4.人機互動學:在使用者和資料之間建立有機聯絡,使得人對資料的使用更方便

二十一世紀最性感的職業 資料科學家

不管老闆懂不懂資料科學家是幹什麼的,反正最近幾年這個崗位的需求數正在快速攀公升,但是其 在什麼地方?什麼是資料科學家?他們是科學家嗎?還是工程師?程式設計師?抑或是乙個商業決策與創新者的新血統?indeed.com 的資料沒有反應出來的乙個事實是,儘管這個職業對應的學科在學術界經過長期的醞釀,但終究...

21世紀7種人才最搶手

21世紀最需要哪些人才?昨 22 日,google副總裁 google大中華區總裁李開復博士作客電子科技大學,以 21世紀最需要的七種人才 為題給大學生們帶來了一場充滿睿智而又不失幽默的演講。李開復說 21世紀,我們最需要7種人才 創新實踐者 跨領域工作者 三商兼高者 高效能溝通者 熱愛工作者 積極...

21世紀最COOL的寫作方式

公元2005年,4月29日,晚上,8時整,晴,月不明,星倒稀,熱少許,瀘州,茜草壩,一普通民宅,側房,枯藤圓椅,一男子,雙腿盤坐,挺胸,收腹,提臀,閉目,張耳,左手食指擎天,右手無名戳地,寓意 天上地下 惟吾獨尊 虎背之後,一條軸直瀉而下,上書 禪 狂草,遒勁,有力,頗兩晉遺風。右邊低音炮,左邊長虹...