不管老闆懂不懂資料科學家是幹什麼的,反正最近幾年這個崗位的需求數正在快速攀公升,
但是其**在什麼地方?什麼是資料科學家?他們是科學家嗎?還是工程師?程式設計師?抑或是乙個商業決策與創新者的新血統?
indeed.com 的資料沒有反應出來的乙個事實是,儘管這個職業對應的學科在學術界經過長期的醞釀,但終究沒有成立為乙個新的學科。而這段時間很長的學術孵化期,也許跟今天的資料科學實踐有著很大的關係。
我們首先來簡要回顧一下這段歷史。早在上世紀六十年代,peter naur 就首次提議要用 「資料科學(data science、datalogy)」 來替代 「電腦科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。2023年,william s. cleveland 提議將其設立為乙個新的學科,吸收 「計算在資料方面取得的進展」 作為統計學的延伸。《資料科學(
data science journal )》及《
the journal of data science》分別於 2023年 與 2023年 發行.2023年,國家科學委員會發表了《數字資料收集萬歲:促進二十一世紀的研究與教育》,文中將資料科學家定義為 「資訊與計算機科學家,資料庫與軟體工程師及程式設計師,學科專家,成功管理數字資料收集的關鍵人物。」
到了本世紀頭十年的中期,資料科學不再屈尊於僅列為其他學科的細目清單,開始走出學術殿堂。從學術邁向新職業走出的這半步是 troy sadkowsky 於 2023年 完成的。他在澳大利亞的乙個學術性崗位工作,但卻有乙個 「科學性程式設計師」 的頭銜,其職責是開發支撐大規模、「大資料」 科學性研究的應用。2023年 一月,數位化資料跨機構工作組發表了乙份名為《駕馭科學與社會數位化資料之力》的報告,sadkowsky 從中了解到 「資料科學家」 這個詞,認為該詞是自己所從事工作的最好描述。2023年6月,他在 linkedin 建立了乙個資料科學家小組作為其 datasceintists.com **的輔佐。
但是資料科學從學術向行業的大規模遷移此前早就在美國發生了,那時候 web 公司正在開發大資料技術,需要定量分析員對其收集得海量資料進行挖掘利用。那些不願呆在象牙塔裡的數量分析專家都會跑到華爾街。不過 2023年 的時候這個地方的**力下降了。greylock partners 的資料科學家 d.j. patil 跟 jeff hammerbacher 一起在 facebook 和 likedin 上建立了資料與分析小組,這一舉動被視為是資料科學走向職業化的標誌,小組的職能是致力於對業務能夠產生即時的、大規模影響的資料應用。所謂資料科學家就是運用資料和科學創造新東西的人。
而資料科學家這個職位的頭銜則是 2023年 由 natahn yau 首次提及的,他認為資料科學家就是能夠從大型資料集中析取出資料,並提供某些可供非資料專家使用的東西的人。
資料科學家、創業家 mike driscoll 則認為資料極客有三個**之處:建模、轉換、視覺化。而一種比較有詩意的表述方式是:資料科學家好比是哥倫布遇上科倫坡,目光如炬的探險家與懷疑一切的大偵探的合體。
而在《資料科學家:二十一世紀最**的職業》一文中,設計 linkedin 的 「你可能認識的人」 功能的資料科學家 jonathan goldman 的工作也許是對資料科學家工作方式的最好詮釋:首先構建理論、印證預感,然後尋找出模式,對應該推出某人的哪乙個網路做出**。文章最後對資料科學家的工作進行如下概括:
資料科學家做的,就是在資料中遨遊的同時進行探索,其顯著特點是強烈的好奇—他們渴望尋找問題核心,追究問題實質,並把這些東西提煉為一組非常清晰、可以驗證的假設。這往往會讓人聯想到這些都是任何乙個領域最有創意的科學家所具備的特質,很顯然,科學家這個頭銜適合於這一新興角色。他們實現價值提公升並不是靠做報表或者 ppt 給高管,而是靠在面向客戶的產品與流程方面所做出的創新。不過,這一大段的闡述仍然不夠簡潔明瞭,在上述觀察的基礎上我們來給出乙個資料科學家的簡明版定義:
資料科學家就是採用科學方法、運用資料探勘工具尋找新的資料洞察的工程師。科學辦法就是構思假設、測試想法、精心設計實驗、經由他人驗證,這些是他們從統計身上掌握的知識,經科學訓練出來的經驗。而工具的運用則是來自其工程經驗,或者更確切地說來自於其電腦科學與程式設計背景。最好的資料科學家是產品與流程的創新者,有時候還是新的資料探勘工具的開發者。
何謂**,這就是。
專注力 二十一世紀的我們最缺乏的能力
這是乙個 快餐文化 的時代,人們習慣了快節奏的生活,忍受著被生活和工作壓得喘不過氣的感覺。我們只是被各種壓力和慣性催促著往前趕,卻不願停下腳步思考人生 和享受內心的寧靜。這是乙個 資訊 的時代,各種各樣的資訊通過各種媒介紛至沓來,使我們難於取捨 無法吸收。我們的心已經被外界紛擾得不再寧靜,我們不再能...
二十一世紀最具潛力的技術大揭密
什麼是十一世紀最具潛力的技術呢?什麼是最最新興的技術呢 下面就由我來對解答你的疑惑 2007年,全球風力發電機累計發電的累計裝機容量已達9.41萬兆瓦,比上一年的7.42萬兆瓦增加27 2007年,中國風電裝機為605萬千瓦,提前3年實現2010年的規劃目標 2001年到2007年的6年間,中國風電...
二十一世紀的計算 研討會及啟示
我希望我們能夠創造未來,改變世界 會議與啟示 2007年 二十一世紀的計算 學術研討會於10月29日在南京人民大會堂舉行。本屆會議的主題是 網路成就炫彩未來 省長市長們簡單地發表了一番中國式客套辭之後演講正式開始。dr.rick rashid作為微軟全球高階副總裁,演講內容自然涉及了相對較多的mir...