資料科學家自述 真正工作之後我才深刻認識到這五點

2021-09-27 10:49:16 字數 2780 閱讀 3464

我從事資料科學工作了已經將近半年了,我一路上成長了很多,也犯了很多錯誤,並在這一過程中從學習了很多。

不存在沒有失敗,只有反饋。而現實世界就是一種反饋機制。

是的,學習之旅並不容易。我們該做的就是繼續努力,不斷學習和改進。

通過這段時間的學習歷程,我發現在從事資料科學領域時,大多數初學者可能會遇到一些常見的陷阱。在本文中我總結出了當中最需要注意的五點,希望能幫助你更好地進行資料科學之旅,讓我們開始吧!

1、業務領域知識

在剛開始從事資料科學工作時,這一點讓我最印象深刻。一開始我並沒有意識到領域知識的重要性。相反,我花了大量時間用於提高技術知識,而且是在不真正了解業務需求的情況下構建複雜的模型。

如果不徹底了解公司業務,你的模型很可能不會為公司增加任何價值,因為它無法滿足公司的商業目的,無論你的模型有多精確。

提高模型精度的最常用技術是網格搜尋,用於搜尋模型的最佳引數。但是,只有在了解業務需求,並新增相關功能訓練模型的前提下,這樣才能顯著提公升模型效能。同時,功能工程也非常重要,網格搜尋只是改善模型的最後一步。

與此同時,你需要關注公司的業務,因為你的工作就是通過資料幫助公司解決問題。問問自己,你是否對公司目前的業務感興趣。

換句話說,不要只用其他人不熟悉且晦澀難懂的專業術語,這樣只會引起不必要的誤解。

有時儘管你的分析見解是正確的,但也可能受到他人的質疑,因此在展示如何用資料解決業務問題之前,建議你先表明自己對整個業務的了解,然後確定問題可用現有資料進行回答。

2、細緻的思維模式和工作流程

做到就像偵探一樣,你需要注重細節。這在資料清理和轉換過程中尤為重要。現實世界中的資料很混亂,你必須能夠在資料的汪洋大海中找到所需的資料進行分析處理。

因此,具有以細節為導向的思維模式和工作流程對於在資料科學領域取得成功至關重要。如果沒有一絲不苟的心態和嚴謹的工作流程,你可能會在探索資料的過程中失去方向。

你可能會在進行了一段時間探索性資料分析後,但仍未獲得任何見解;你可能會不斷地用不同引數訓練模型,希望得到改進;你可能好不容易完成資料清理,而實際上資料卻不夠乾淨,無法提供給模型。

曾經我也經歷過這些過程,後來我意識到自己缺乏結構良好的工作流程,而且內心急於求成。

最後我所做的是退後一步,從全域性把握問題。並且重新梳理想法和工作流程,努力使一切都標準化和系統化。最終這奏效了!

3、實驗設計和邏輯

系統的工作流程能夠為整個資料科學系統提供巨集觀的角度; 實驗是工作流程中不可或缺的一部分,它包括假設測試和建模的過程。

kaggle競賽等機器學習問題比較直接,從中你能獲得訓練資料並開始構建模型。

然而在現實情況比較複雜,你需要通過構建邏輯和設計實驗來測試你的假設,並使用合適的指標評估模型。

在實驗結束時,你的任何結論都需要事實和資料的支援,永遠不要沒有驗證其有效性的情況下得出結論。

4、 溝通技巧

如果本文只能強調一點,那麼我希望你能提高自己的溝通技巧。無論你是資料科學的初學者,還是資料科學專家。

當在表達自己看法的同時,你需要聆聽他人的意見,並且能夠接受批評和反饋。

在與公司領導層和同事溝通業務時,要用簡單易懂的語言。這與第一點提到的業務領域知識一樣,如果缺乏這點會降低與團隊成員的溝通效率,因為他人可能很難理解你想表達的內容。

更糟糕的是,缺乏溝通技巧會讓領導層難以理解你的分析結果。即使你的分析很複雜,但始終要用簡單的方式傳達你的想法和建議。

5、用資料講故事

資料科學不僅僅是進行資料處理和建模模。憑藉能夠滿足業務需求的出色模型,你最終目標應該是通過資料講故事,把分析結果傳達給公司領導層,當中需要能回答以下問題:

用資料講故事既簡單又複雜。在資料驅動的分析中,有時即使是出色的模型和分析見解,也會因為糟糕的展現形式而變得毫無用處。這實在太可惜了!

想象一下你是公司領導,當資料科學家給你展現了能夠出色解決業務問題的模型,而不做進一步解釋。你可能會想,這很厲害,模型很在贊。那然後呢?

問題在於,模型結果和行動計畫之間沒有聯絡起來。即使你展示了高度精確的模型**,而其他人卻不知道該做什麼。我們必須從他們的角度來思考,而不是僅僅滿足業務目標。

有許多方法能夠改善這一情況,我將簡要介紹兩種方法,它們可以提供啟發性的見解並更好地制定行動計畫。

設定比較基準

良好的模型沒有對比是不夠的。換句話說,需要基準讓我們知道模型是否達標。

如果沒有基準,那麼是不夠的,容易出現質疑:怎樣才能被認為是足夠好?我為什麼要相信你的結果?

風險管理

這一點尤為重要,因為它將決定你的模型是否會投入生產。這意味著你必須從模型效能中顯示最佳和最差的案例場景。

這就是風險管理的用武之地,因為公司高層希望知道模型的侷限在哪兒,當模型投入生產時公司要承擔多大的風險,這最終會影響行動計畫。

因此,風險管理不僅會使你的結果更具吸引力,而且還會提高公司利對你的信心。

謝謝你的閱讀,希望這五點能夠對你的資料科學之旅中有所幫助。

資料科學家自述 真正工作之後我才深刻認識到這五點

我從事資料科學工作了已經將近半年了,我一路上成長了很多,也犯了很多錯誤,並在這一過程中從學習了很多。不存在沒有失敗,只有反饋。而現實世界就是一種反饋機制。是的,學習之旅並不容易。我們該做的就是繼續努力,不斷學習和改進。通過這段時間的學習歷程,我發現在從事資料科學領域時,大多數初學者可能會遇到一些常見...

資料科學家 21世紀最性感的工作

大部分資料科學家擔任公司產品開發或營銷部門的職位,或是效力於首席技術官。資料科學家的先天特性包括好奇心 創造力 客觀 有條理地思考能力與對細節的專注力,她強調。資料科學家分成兩種型別。第一種型別 他們是真正的科學家,研究創造演算法和方法,發表 並積極參與這些規則的溝通。這些單個的人物常見於以演算法和...

從事SQL相關工作者可以成為資料科學家嗎

簡短的回答是肯定的。只要資料科學家中存在 資料 結構化查詢語言 或我們稱之為 quel 將仍然是其中的重要部分。本文將深入 資料科學及其與sql的關係,包括5 w和1h的答案 如何,為什麼,何地,何時,誰和什麼。我們還將學習資料庫管理系統 dbms 的基礎知識,並了解資料科學家如何成為您職業生涯的最...