小生今年研二,從事軟體資料分析與挖掘不到兩年。兩年裡小生忙忙碌碌,從來沒有總結過自己的工作,今天暫停住忙碌的腳步,隨意書寫幾行文字,權當忙裡偷閒總結這兩年資料分析與研究的經歷與體悟。大家共勉!
分析資料其實說難也難說簡單也是簡單的。分析的難點在於初始分析某個專業領域的資料是「無從下手」的,資料量之大,種類之多,更新速度之快真的會讓所有 分析人員摸不著頭腦。此時,最重要的就是多看資料了,人工一條一條的解讀資料,剛開始最基本的還是解決what的問題,資料的方方面面,不同的屬性代表什 麼意思,屬性之間是否有關聯關係等等都是解讀資料初期需要完成的目標。當然這個過程是痛苦的,萬事開頭難嘛!
難點之二在於尋找分析的目 標,也就是暫定分析時要解決的問題,這可不是我們小生菜鳥能解決的問題。此時,真正需要的就是與專業領域內大牛討論學習了,不然剛開始為什麼說需要學徒 呢!(學徒可不是指找個師傅幫你完成解決問題時的困難,而是以師傅的「格局」開闊的視野幫助我們找需要解決的問題。瑪蛋,聽起來是不是很欠!)好了,問題 確定了,分析的目標也就確定了,不過此時的問題之抽象不是一般人能想象的,如果能搞懂問題你也算是「大牛」了!這也就是分析資料的難點之一了。搞不懂問題 主要還是對資料理解不深,還是要繼續人工看資料。不過小生要恭喜你的是你公升級了,此時看資料再也不是解決what了,而是應該心中帶著問題,帶著分析的目 標驗證資料,看看資料是否真的存在這些問題,或者尋找解決問題的角度。
到這一步,下面就是要解決how的問題了,也許需要尋找資料內部 的規律,此時可能需要做一些統計核實規律的普遍性。不過到這一步應該本領域的資料比較熟悉了,分析起來也不覺得那麼難受了(實現自己的想法還是挺有意思 的),結合分析目標也許自己可以提出一些技術方法實現一些技術路線。後面就是建模驗證技術的可行性和有效性了。模型裡可能有一些引數需要調整,這些引數的 值不同便會影響模型的結果,因此訓練資料集此時很重要,不過這個小生感悟還不是很多,畢竟資料分析才搞了兩年,之前對訓練的資料也只是做了一些分組,主要 分為訓練集和實驗集。訓練集是為了調整模型引數的,而實驗集主要用來驗證模型的有效性。
感謝大家耐得住寂寞,挺得住煩惱,看完這一行行無聊的文字。也許您會批評兩句,建議幾點!謙虛學習,高調做事,誠懇待人,一向是小生待人處事的原則。感謝大家的關注,大家的建議!
資料分析總結四 視覺化與資料分析
資料視覺化 資料視覺化的目的是讓資料更高效,讓讀者更高效閱讀,而不單是自己使用,突出資料背後的規律 突出重要的因素,最後是美觀。散點圖主要解釋資料之間的規律。氣泡圖是散點圖的變種,引入了第三個度量作為 氣泡的大小。維度作y軸,更傾向於洞 察資料在不同類別下的 資料規律 消費金額和消費次數的關係 消費...
資料分析模型總結
1.邏輯回歸 from sklearn.linear model import logisticregression clf logisticregression penalty l1 solver saga tol 0.1,c 0.1,random state 0 clf.fit x train ...
資料分析面試總結
data node mapreduce 分布式計算 mapreduce流程 mrjob yarn 資源排程協調 第三正規化 不存在屬性對主鍵的傳遞依賴 永續性事務執行成功後,該事務對資料庫的更改是持久儲存在資料庫中的 快排思想 用到了分治思想,和分治演算法一樣為了進行排序需要先對其劃分的子區間進行排...