資料科學不是乙個具體的職務,而是一種在機構中解決問題的方法。因此,資料科學可以包含多種教育背景、技能、工具、實踐。實際工作中的資料科學家們,背景和技能的跨度很大,很難被一概而論。
寫文章揭密資料科學家,這事幾乎已經發展成了一種產業。
關於資料科學家的困惑很大部分歸咎於:資料科學不是乙個具體的職務,而是一種在機構中解決問題的方法。因此,資料科學可以包含多種教育背景、技能、工具、實踐。實際工作中的資料科學家們,背景和技能的跨度很大,很難被一概而論。
相對而言,描述資料科學家的實踐是什麼樣的可能更容易。
簡單地說,資料科學是用資料主導的答案解決實際問題的實踐。實現這個目標的技術可能多種多樣。你會常常聽到資料科學家使用傳統統計學、貝葉斯方法、機器學習、計算工具、行業領域知識來回答問題。
有時資料的規模會非常巨大,需要使用複雜的工具和方法來穿過迷霧,得到隱藏在資料中的清晰結論。但是沒有哪個方法、工作、算式能回答所有問題,所以也很難為資料科學家下定義。
展示可能比陳述更有說服力。就讓我們來走入資料科學家平凡又不平凡的一天。
早晨早晨的第一件事可能是這一天日程中為數不多的慣例。
我們的團隊在早上進行例會,分享前一天的進展和問題。這和軟體開發的「站立」會議可能有點不同。對我們來說,「進展」既可以是建設了一部分軟體,也可以是閱讀了一篇可以讓我們對手頭問題有更深理解的**。
資料科學可能在許多方面與大學裡的學術行為不同,但它依然是對科學方法的合理運用。
通常,我們的挑戰是如何把「未知」變成「已知」。不僅如此,還要讓它「可執行」。
這意味著通過分析資料檢驗某個假設,建立測量效果的方法,對這個過程進行迭代,直到最終的研究結果被修正到足夠有用的水平。晨會是乙個交流各個試驗進展的機會。
上午現在我們有了各自的任務。是時候做一點實際工作了。這是一天中最有趣的部分。這是我坐下來專注於乙個實際問題的時候。
這可能意味著研究處理偶圖的方法,或者寫一些**計算高斯超幾何函式。但每個星期面對的問題很少相同。擁有數學、統計、程式設計的背景對解決這些問題來說很重要,但仍然不夠。成為每種方法的專家是不可能的。下乙個問題將需要什麼知識也是無法預知的。
這就是為什麼資料科學家需要不斷學習和無窮的好奇心。
多數情況下,每個新問題需要一種新方法。這些方法不僅對你來說是新的,對整個世界來說也是新的。這是資料科學的挑戰之處和刺激**。
不確定性不僅是一種統計學的屬性,也是一種生活方式。
午間資料科學的實踐不止於應用某些演算法的技術細節,或是在白板上寫出高深的算式。
歸根結底,我們要解決現實生活中的問題。這意味著理解其他人面對的問題。午間是跟客戶、商業拓展部門、服務部門以及任何對我們客戶和合夥人每天面對的問題有全面了解的人士碰面的好時候。
大資料分析和機器學習的力量如果不能為他人創造便利就沒太大意義。這是資料科學中乙個重要的,但是常被忽略的步驟。它決定乙個專案最終的成敗。這也是區分資料科學與傳統學術的一點。
把乙個業務問題翻譯成乙個縝密的研究專案,再把研究結果翻譯成乙個實際的解決方案,這需要對業務的深入理解,以及大量的創造力。
閉門造車,沒完沒了做演算法調優的資料科學團隊永遠不會成功。的確,有時為了讓乙個專案最終交付需要這麼做。但如果這些都不能投入實際應用還有什麼意義?
資料能告訴我們的關於世界的知識與資料本身中間存在一道鴻溝。與一線工作人員保持良好的交流關係,是彌補這一鴻溝的唯一方式。
下午我們已經捲起袖子,從技術和實際的層面鑽研了問題。是時候退一步,思考一下全域性了。
我們常常在下午花些時間詳細討論某個專案的目標,或者**把乙個研究專案變成可交付的形式所需的剩餘步驟。
與產品團隊的密切交流可以確保我們的工作與機構的總體願景/目標保持一致。確保專注於關鍵問題是很重要的。由於我們的工作是解決問題,所以必須確保解決方案行得通。我的意思是,在實際工作中行得通。根據特定業務提供解決方案只是個開始。
我們需要建立可靠的、可重複使用的工具。
這既包括把乙個試驗推廣到更多的實用案例,也包括構造乙個能夠深入產品的解決方案。
這個環節是我們最像軟體開發者的部分,考慮並編寫一些測試來確保表現、穩定性、擴充套件性。我們在umbel的軟體工程團隊負責建立巨集大的系統,我們不能扔給他們額外的工作,讓他們為我們收拾爛攤子。
把這些試驗變成軟體的乙個功能,唯一的辦法是在專案全程時刻想著這個目標。這也就是為何研究階段不應只包含數學。
我們需要知道我們不僅能解決某個問題,還能現實的限制中構造軟體來解決這個問題。
結束這一天
經歷了所有這些之後,有必要深吸一口氣,看看自己究竟走了多遠。有些日子會比其他日子走的更遠。大多數試驗則以失敗告終。
多數解決方案在最終展示之前需要調整打磨。通常很少有什麼能保證你選擇的路線是對的。開天闢地的過程始終伴隨著不確定性。但這個過程中的每天,你都會學到新東西。這一天的結尾,我們反思我們學到了什麼,並把這有關世界的新知識帶到明天的晨會。
經過足夠的努力,我們最終獲得針對特定問題的直接可行的答案。
我們可以對這個答案充滿自信,因為它由資料嚴謹地支撐。這個時候,我們還是沒有結束**的編寫。正如我之前所說,資料科學專案的乙個關鍵環節是把最終結果翻譯成有意義、實用的東西。
我們需要把我們學到的東西有效地傳達給不同背景的受眾。最終,我們需要利用資料講乙個故事。跟其他環節一樣,這個環節沒有什麼唯一的正確方法。這個環節中我們尋找用圖表把結果視覺化的方法,或者在乙個平面展示從問題到解答的各個環節,或者僅僅是宣布「好的,我們需要做的事是這樣的。」
這裡的關鍵在於,在結束時,每個人都能理解要做什麼以及為什麼這麼做。
結語你可能見過網上流傳的那些展示資料科學家需要多少種交叉技能的。
他們會告訴你資料科學家是乙個天生就是數學家的軟體工程師,或者一名喜歡在週末把自己消耗的咖啡數量做成的精美視覺化專案的mba。
希望這個有關資料科學家日常的**能讓你明白這些是怎麼來的。但資料科學不是對某種工作的描述,它是乙個過程。的確,你需要上面提到的技能,甚至更多技能來成功實現乙個資料科學專案。
不過,不要認為你需要什麼事都乙個人完成。資料科學,如同任何其他複雜的努力一樣,是團隊協作。這也就是為什麼你很少看見兩個履歷相同的資料科學家。乙個優秀的資料科學團隊應囊括所有這些技能,擁有專家和通才,每個成員都有強烈的好奇心。
如果有某件事情是資料科學家必須擅長的,那就是學習。
bingdata優網助幫匯聚多平台採集的海量資料,通過大資料技術的分析及**能力為企業提供智慧型化的資料分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。
測試每天都在做些啥
1 需求評審該做什麼 需求評審範圍比較廣,不同環境不同階段,需求評審的參與率會略微不同。在對應用業務非常熟悉的情況,且崗位在公司比較重要,如測試經理或測試組長,在需求分析階段就會參與評審,分析需求的合理性以及是否潛在隱患,有一定的技術經驗,還能評估出開發實現難易程度以及開發周期 當然這是後話,為專案...
我每天都在github上做些什麼
維護自己的repo,思考改進,編碼,提交 解決issue。自己寫乙個開源專案是最好的學習過程。會有人去關注你的專案,給你貢獻 和你用 進行交流。而對於對於自己,你的專案有人關注,會激勵自己不斷的思考如何做到更好。我follow一些熱門repo的作者,有時間會去看看他們star了哪些repo,經常能在...
試問我們都在做些什麼型別的測試?
前幾天看到乙個部落格上關於對測試分類的重新定義,讓我們頗有感觸,也因此我需要對於測試的分類重新深入學習和理解,並對自己當前的測試工作進行歸類,試問自己我到底做過哪些測試,擁有哪些方面的技能和經驗,因為這些都是對我們職業發展有實際意義的,在這之前我原來如此模糊,不過從這以後我想我可以清醒很多了。不知道...