資料分析崗位面試必備

2021-10-02 22:16:18 字數 1444 閱讀 6661

資料分析遵循一定的流程,不僅可以保證資料分析每乙個階段的工作內容有章可循,而且還可以讓分析最終的結果更加準確,更加有說服力。一般情況下,資料分析分為以下幾個步驟:

包括特徵提取、特徵構建、特徵選擇。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型做訓練,更可以得到好的結果。

資料採集前需要明確採集哪些資料,一般的思路為:哪些資料對最後的結果**有幫助?資料我們能夠採集到嗎?線上實時計算的時候獲取是否快捷?

資料清洗也是很重要的一步,機器學習演算法大多數時候就是乙個加工機器,至於最後的產品如何,取決於原材料的好壞。資料清洗就是要去除髒資料,比如某些商品的刷單資料。

那麼如何判定髒資料呢?

資料清洗標準

採集、清洗過資料以後,正負樣本是不均衡的,要進行資料取樣。取樣的方法有隨機取樣和分層抽樣。但是隨機取樣會有隱患,因為可能某次隨機取樣得到的資料很不均勻,更多的是根據特徵採用分層抽樣。

正負樣本不平衡處理辦法

max-min: 這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

z-score: 最常見的標準化方法就是z標準化,也是spss中最為常用的標準化方法,spss預設的標準化方法就是z-score標準化。也叫標準差標準化,這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:x∗=x−μσ,其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。

roc(receiver operating characteristic)曲線即受試者工作特徵曲線 (receiver operating characteristic curve,簡稱roc曲線),又稱為感受性曲線(sensitivity curve),用來評價乙個二值分類器(binary classifier)的優劣。

auc(area under curve)被定義為roc曲線下的面積,這個面積的數值不會大於1。又由於roc曲線一般都處於y=x這條直線的上方,所以auc的取值範圍在0.5和1之間。使用auc值作為評價標準是因為很多時候roc曲線並不能清晰的說明哪個分類器的效果更好,而作為乙個數值,對應auc更大的分類器效果更好。為什麼呢,因為roc曲線越接近左上角,auc面積就越大,分類器效能就越好。

分組比較中都佔優勢的一方,在總評中有時反而是失勢的一方。即,資料集分組呈現的趨勢與資料集聚合呈現的趨勢相反的現象。

如下圖,按照性別分組的結果與總體的結果不同。

具體參考:

「資料分析」崗位分析

行業內公司的融資情況從一定程度上說明了選擇資料分析崗位的穩定性 佔比情況是所有職位累加在一起,未區分職位 不需要融資的公司佔比60 d輪以上的公司42 其實很多不需要融資的公司,規模也是很大的,可以結合公司規模來判斷公司的情況如何,是否值得去發展。提供資料類職位的公司,規模還算比較大的 500人以上...

資料分析面試

整合學習思想 兩個流派 1 boosting 通過將弱學習器提公升為強學習器的整合方法來提高 的精度。典型演算法 adaboost gbdt 2 bagging 通過自動取樣的方法生成眾多並行式分類器,通過 少數服從多數 的原則來確定最終的結果。典型演算法 隨機森林 思想 一棵樹是決策樹,多棵樹就是...

資料分析與挖掘案列 拉勾網資料分析崗位分析

無論出於興趣或者職業發展,於是最近開始做各種大小專案實踐,以拉勾網資料分析招聘職位分析廣州求職競爭情況!tools chrome python 3.6 jupyter os mac osx 在拉勾網搜尋頁面輸入資料分析,並且定位為廣州,用f12開啟開發除錯工具,根據下圖示紅的地方檢視詳細資訊 在ge...