資料分析是乙個檢查、清理、轉換和資料建模的過程,目的是發現有用的資訊、提出結論和支援決策依據。資料建模是資料分析裡的一項,資料建模裡又有一些常見的套路:選擇變數與重構變數、選擇演算法、設定引數、載入演算法和測試結果。
資料分析師在拿到資料時(不管是自己爬取還是資料框裡提取的)不是對所有的變數都要進行分析或者納入到模型裡,有許多變數起不到資料「分析」的任務(比如列號,也是資料集裡的變數),有的變數跟資料分析師所需要達到的目的沒有關係,這就是選擇變數的重要性,一般來說選擇變數有兩個標準:資料邏輯和業務參考。
資料邏輯:
所謂資料邏輯,一般從資料的完整性、集中度和變數相關性(有時候還有考慮因果關係)等角度考慮,乙個變數缺失率達到80%,或者乙個非布林值變數但卻集中兩個值……這些都要考慮加入這些變數後是否對後面的分析有價值。
業務參考:
變數基於收集到的資料,在做目標性的資料分析時會產生與業務產生關聯,比如共享單車資料集車輪胎這個變數裡,輪胎數不會是1或者3吧,在接下來的建模中,業務知識告訴你是不會選擇這個變數的。
業務資料分析師所要做的就是要用資料分析解決商業問題,而不是為了建立模型而建模,因此要根據業務背景和所要達到的目的選擇模型,根據挖掘目標和資料形式可以建立分類與**、聚類分析、關聯規則、時序模式、偏差檢測等模型,幫助企業提取資料中隱藏的商業價值,從以前的主觀決策轉向更科學的資料決策,提高企業的競爭力。下面列舉了一些常見的業務背景和對應的常用演算法。
**劃分消費群體:**聚類、分類;
**滿意度調查:**回歸、聚類、分類;
**購買額**:**回歸、時間序列;
**滿意度調查:**回歸、聚類、分類。
確定好要用那種模型後,就需要對模型進行調查引數,比如經典的聚類分析裡的k均值演算法就需要給定k的值(希望聚成的類別數量),引數有時候不是一次就能確定好的,需要多次的調整,達到最優的效果。
模型建立好後需要驗證與測試,要根據演算法輸出結果來確定該演算法是否能夠解決業務問題,比如聚類演算法裡除了k均值演算法還有系統聚類等,要是k—means的結果不太好就要考慮其他的演算法,又或者回歸模型輸出結果不滿足需求,考慮時間序列模型來做;若不需要換算法,還要測試一下輸出的結果是否有提示的空間,如聚類分析裡的聚類結果有四類,通過視覺化發現有兩類的特徵很相近,區分度不明顯,這就造成有很大部分的類處於很模糊的位置,所以就很需要調整引數來優化模型,在不斷調參優化模型的過程中,模型的解釋性和實用性會得到提公升,當模型能夠滿足業務需求,那就可以輸出結果。
這是通常建模的一般流程,而建模只是資料分析裡其中一項;流程的熟悉、業務的理解、演算法理論及**的熟練等等都是考驗乙個資料分析師的能力;最後希望這篇文章能夠幫助到你建模時構建乙個框架,而不至於在建模時不知道幹嘛;在學習的道路上你我共勉!
【延伸閱讀】
懂得了淚就懂得了人生
生命總是在自己的啼哭中開始,於別人的淚水裡抵達終點。醫學上認為,眼淚有清潔眼球的作用,是對外界刺激的一種應激性反映,從胎兒時開始,就有了基礎淚。於是,淚水就給生命打上了烙印,直到生命結束後,或許還有淚水在記憶你已經飄逝的靈魂。人是情感的動物,有七情六慾,不能長期壓抑在心底,顯現於外,不外乎表情 語言...
懂得了遺憾,就懂得了人生
許多事情總是想象比現實更美,相逢如是,離別亦如是,當現實的情形不按照理想的情形發展,事實出現與心願不統一的結局時,遺憾便產生了。遺憾可以彰顯出悲壯之情,而悲壯又給後人留下一種永恆的力量,也許生活帶走了太多東西,可是卻留下片片真情。有過遺憾的人,必定是感覺到深切的痛苦的人,這樣的人也必定真實的活過,付...
套路數學 螞蟻
我也不知道為什麼叫螞蟻,我也不知道原題是哪個。但是既然是今天考試的題,還這麼套路 就寫乙個部落格來記錄一下咯 題目 求1 n約數個數最多的那個數 10 的資料 1 for int i 1 i n i int bs 1 while bs i 秒完之後一想,不對,資料這麼大,應該打表!然後打了乙個表,試...