找個資料科學的工作不容易,不過我有個好主意能幫你找工作,這就是打造你自己的作品集,利用作品集展示你學到的技能,讓未來的老闆知道你有多大本事。
你可以把這5個資料科學專案放到作品集裡,以此說明自己的能力:
資料清洗
資料科學家往往要耗費高達80%的時間來清理新專案的資料,這是資料科學團隊最大的痛點。如果能告訴他們你擁有豐富的資料清理經驗,你的價值馬上就能體現出來了。現在,找一些需要清理的資料集,建立乙個資料清洗專案,開始資料清理吧。
用python的話,pandas絕對是首選,如果用的是r,可以使用dplyr這個包。記得要表現出以下幾項技能:
匯入資料;
合併多個資料集;
檢測缺失值;
檢測異常值;
插入缺失值;
資料質量驗證。
探索性資料分析
資料科學的另一項重要工作是探索性資料分析(eda,exploratory data analysis ),它是提出問題、使用視覺化方法研究問題的過程。探索性資料分析可以讓分析師通過資料得出結論,進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果,也可以是分析季節因素對銷售趨勢的影響。一般來說,探索性資料分析會帶來一些讓人意想不到的發現。
python使用者可以使用pandas和matplotlib(譯註:強烈推薦國內使用者使用鍵冬同學的pyecharts,互動式的視覺化圖,非常好用!)這兩個庫進行探索性資料分析。r使用者可以使用ggplot2這個包,也非常實用。探索性資料分析這個專案要展示出如下幾方面的技能:
能夠提出探索性的問題;
能夠識別趨勢;
能夠識別變數的共變性(covariation);
能夠使用視覺化(散點圖、直方圖,箱須圖等)有效地溝通分析結果。
python使用者可以使用bokeh和plotly,這兩個庫都是編制dashboard的利器。r使用者則必選rstudio的shiny包。dashboard的專案一定要突出以下這些重要的技能。
列出客戶需求相關的指標;
提取有用的特徵;
使用有邏輯的布局,比如易於瀏覽的「f模式」;
建立最優的重新整理率;
生成報告或其它自動化的操作。
機器學習
機器學習專案是你的作品集裡另一項非常重要的內容。在你關掉這篇文章,開始構建深度學習專案前,不要著急,咱們先花一分鐘的時間回顧點兒基礎概念,就算要建立乙個特別複雜的機器學習模型,也得先從基礎做起。我建議從線性回歸與邏輯斯蒂回歸做起,和高管溝通時,解釋這些模型也會相對容易一點。這個專案的重點應該是突出專案對業務的影響,比如客戶流失、欺詐監測,或貸款拖欠這些內容。提醒一下,別再用**鳶尾花型別這樣的例子了,最好找些實用的資料專案。
python使用者可以用 scikit-learn這個機器學習庫,r使用者可以使用caret這個包。機器學習專案要傳達給讀者你具有以下技能:
能夠說明選擇某個機器學習模型的原因;
能夠避免過擬合,將資料分割為訓練集與測試集(k折交叉驗證);
能夠選擇正確的評估指標(auc~area under curve, 調整r方~adj-r2, 混淆矩陣~confusion matrix);
能夠開展特徵工程與選擇的能力;
能夠進行超引數調優。
溝通溝通對於資料科學的重要性比你想的要大得多,能否有效地溝通、交流資料分析結果是區分牛x資料科學家和普通資料科學家的標準。不管你做的模型多花哨,如果不能給同事或客戶講清楚,不能讓他們理解,就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具,你可以嘗試把機器學習專案改造成幻燈片,還可以使用jupyter notebook或rmarkdown輔助溝通。
記住,首先要搞清楚目標受眾是誰,給公司高管做匯報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力:
搞清楚你的目標受眾是誰;
展示視覺化圖;
幻燈片要清爽,不要塞進去太多資訊;
陳述流程一定要流暢;
結合業務影響(比如減少成本、增加收入)說明分析結果。
使用jupyter notebook或rmarkdown檔案記錄專案,也可以使用免費的github pages將markdown檔案轉化為靜態網頁。
完成上述五個專案,把它們加到你的作品集裡,找工作時,把你的作品集展示給面試官,就能把他們都給震了。
保持積極的心態,不斷實踐各種資料科學專案,你就能在資料科學這條道路上不斷前進,最終找到一條屬於自己的路,並在這個領域佔據一席之地。順祝馬到成功,高薪在手!
2023年春季《資料科學導論》課程回顧(一)
這個帖子是總結資料科學教學體系設計和教學經驗的,會有一些比較發散的議論和思考,拋磚引玉,請看官不要苛責,多提寶貴意見。因為資料科學導論課程最大的困難是,能講的,該講的東西太多,不知如何取捨 而且針對不同背景和先修課程的學生,內容也會存在很大差異,這些都是巨大的挑戰,需要迭代改進。2018年春季學期要...
判斷這5個數值是否連續相鄰
1.乙個整數數列,元素取值可能是0 65535中的任意乙個數,相同數值不會重複出現。0是例外,可以反覆出現。請設計乙個演算法,當你從該數列中隨意選取5個數值,判斷這5個數值是否連續相鄰。注意 5個數值允許是亂序的。比如 8 7 5 0 6 0可以通配任意數值。比如 8 7 5 0 6 中的0可以通配...
判斷這5個數值是否連續相鄰
題目 乙個整數數列,元素取值可能是0 65535中的任意乙個數,相同數值不會重複出現 0是例外,可以反覆出現。請設計乙個演算法,當你從該數列中隨意選取5個數值,判斷這5個數值是否連續相鄰 注意 解題思路 1.取5個數中非0的最大數和最小數,之差不大於4則連續,否則不連續。2.要增加兩個特例 1 全0...