在資料科學家入門階段,你不可避免會踩到一些雷區。這篇文章介紹了 sébastien foucaud 博士總結的新手資料科學家最容易犯的 5 個錯誤。博士已經有 20 多年帶領學術界和應用行業年輕資料科學家的經驗,可以幫讀者朋友少走些彎路,為你的實際工作提供一些指導和幫助。話不多說,上清單!
1. 熱衷於 kaggle 競賽
參加 kaggle 競賽可以鍛鍊你的資料科學職業技能。如果你懂決策樹和神經網路那再好不過了。但實話告訴你吧,資料科學家的實際工作中用不著建立那麼多的模型。請記住,一般情況下,你將花費 80%的時間對資料進行預處理,只有剩下的 20%用於構建模型。
資料科學家工作時間分布
參加 kaggle 競賽在很多方面都會對你很有幫助。但是,參加競賽的時候,通常資料會被完美地清理乾淨,所以你可以花很多時間去調整模型。而在現實工作中很少出現這種情況,你必須從不同格式和命名的不同**收集資料。
不要害怕髒活累活,一定要好好練習資料預處理技能,因為它將佔據你 80%的工作時間。比如爬取影象或從 api 收集這些影象資料;從 genius 收集歌詞資料等。準備好解決特定問題所需的資料,然後將其輸入你的筆記本並訓練機器學習生命週期。精通資料預處理無疑將幫助你成為真正的資料科學家,並對你的公司產生直接影響。
2. 神經網路是「萬能金丹」
深度學習模型在計算機視覺或自然語言處理領域優於其他機器學習模型。但他們也有明顯的缺點。
神經網路對資料十分依賴。如果樣本較少,通常用決策樹或邏輯回歸模型結果會更好。神經網路還是乙個黑匣子。眾所周知,它們難以解釋和說明。如果產品所有者或管理者開始質疑模型的輸出,你必須能夠解釋清楚模型的原理。這對於傳統模型來說更容易一點。
正如 james le 在這篇優秀文章中所說( ),我們有很多很棒的統計學習模型。自學這些知識,了解它們的優缺點,並根據用例的條件應用這些模型。除非你在計算機視覺或自然語音識別專業領域工作,否則很有可能傳統機器學習演算法才是最好用的模型。你很快就會發現,最簡單的模型,如 logistic 回歸,才是最好用的模型。
3. 機器學習是產品
機器學習在過去的十年中都被過度炒作,太多的創業公司吹噓機器學習能夠解決任何存在的問題。
作為資料科學家,你所制定的專案需要以客戶的目標為主要優先事項。只有這樣,你才能評估機器學習是否會幫到客戶。
4. 混淆因果關係
大約 90%的資料是在過去幾年中湧現的。隨著大資料的出現,機器學習從業者能夠接觸到大量廣泛的資料。有了這麼多要評估的資料,學習模型發現隨機相關性的概率隨之增加。
上面的顯示了美國小姐的年齡以及由蒸汽、熱蒸氣和發熱物體導致的**的總數。基於這些資料,演算法將學習到美國小姐的年齡與特定物體導致的**數量之間會互相影響的關係模型。然而,兩個資料點實際上毫無關係,並且這兩個變數對彼此都絕對沒有任何可**的影響。
在發現資料之間的關係時,將你的領域知識應用進去。這可能是相關性還是因果關係?回答這些問題是根據資料採取行動的關鍵。
5. 優化錯誤的引數
開發機器學習模型有乙個敏捷的生命週期。首先,你要定義你的想法和關鍵引數。其次,你需要建立乙個結果的原型。第三,你不斷優化引數,直到你對它感到滿意。
在構建機器學習模型時,請記住要手動進行錯誤分析。雖然這個過程乏味並耗力,但它會幫助你在接下來的迭代中有效地改進模型。請參閱吳恩達的深度學習專項課程,以獲得更多優化模型的技巧。
要點總結
《資料科學家訪談錄》總結 5
01 05 dj patil,hillary mason,pete skomoroch,mike dewar,riley newman 06 10 clare corthell,drew conway,kevin novak,chris moody,erich owen 11 15 eithon c...
資料科學家應知道的關於資料科學專案的四個關鍵方面
實用資料科學是乙個多維領域。機器學習演算法本質上是整個端對端資料科學驅動專案的一部分。我經常遇到一些年輕的資料科學愛好者,他們在剛開始的時候沒有乙個完整的計畫。在針對實際情況構建資料科學驅動產品的解決方案時,我們需要考慮多種實際情況,所以它不僅限於只考慮資料方面的事情 在資料科學驅動的專案中,一些更...
資料科學家需要知道的5個基本統計學概念
對於資料科學的藝術,統計學可以說是乙個強大的工具。從高層次的角度來看,統計是利用數學對資料進行技術分析。乙個基本的視覺化,如條形圖,可以給你提供一些高階的資訊,但是通過統計學,我們可以以一種更加以資訊驅動和更有針對性的方式來運算元據。所用到的數學方法能幫助我們對資料形成具體的結論,而不是去靠猜測。通...