終於有那麼一丟丟時間,可以來把關於r語言程式設計的工作梳理一下。
總體來說,工作內容主要是將公司已有的excel模板的資料分析內容轉為r語言形式,目前寫了四個產品的資料清洗和分析**。
在這中間,學習到了很多新知識。對接下來,程式設計之路的走向有了初步的規劃。對資料分析這塊也增加了認識吧。
關於新知識:
1、較大資料的處理來說,學習了data.table包,感覺是非常強大的。
所做的工作是將之前基於data frame的計算**轉成了data.table的形式來進行運算,效率是有提公升的。因為data.table本身的dt[ ]是具有一定功能的,當然更多的功能還在繼續學習中。
2、資料整理,進一步熟練了tidyr,dplyr等r包的使用。
比如使用seperate來實現excel中的分列功能。
使用merge來實現excel中的vlookup功能。
多種方法來剔除缺失值,比如按照缺失比例刪除等。或剔除特定的資料,這裡主要基於filter系列的函式進行,例如filter_at等。
關於時間在r語言裡的轉換等問題也進行了整理。
3、資料分析思路上,更多的考慮使用簡小的**,而非使用過多的for迴圈等。
關於數值計算,要考慮矩陣化運算。
4、還有tidyverse這個載入包的神器,開發者當然是哈德利大神,簡直是我偶像了。
5、還有其他一些零零碎碎的內容就不細說了。
更多的使用pply函式。
能不用迴圈就不用,盡量尋找哈德利大神寫的種種函式,哈哈這個也很重要哦。
總的來說,還是需要投機取巧一些的。
關於接下來的學習路徑:
1、advanced r和r資料科學兩本書要刷完,第一本年底前看完吧,第二本的話11月底。
2、r中常做的統計分析要自己做乙個總結,這個可以參考r語言實戰的介紹。
3、關於測量學方面的知識,可以將r irt那本書作為參考。大概看一遍吧,完成期限為年底前。
資料分析:
這依然是我的興趣方向,因為從資料中看到很多問題真的很有意思。
但是近段時間的了解,感覺資料分析在職業的上公升通道上是有瓶頸的。
因此資料分析作為工具,用的好,當然好,但主攻它對個人來說,價值似乎沒有那麼高。當然我說的只是普通的資料分析,ai那些屬於另乙個世界了。
所以,還是需要發散思路,廣開視角吧,不要把自己限制在自己的安逸區了,當然不能忽視提高自己這方面的技能。
目前的目標還是把r&資料分析搞個底朝天吧。
就近期的工作心境來說,似乎緊張的次數變少了,現在幾乎沒有了,這是好事嗎,也不盡然,畢竟不緊張在一定程度上也說明了不太關注。
但就工作內容的完成情況來說,個人是滿意的,畢竟每個工作都在最大能力內做到自己滿意了。通過這段時間的工作,感覺自己能力也有不少提高吧,特別是在調研能力和ppt製作&匯報能力上(入職以來感覺每週都要報告。。。讓人頭冷)。
啊對,我還要練習英語口語。希望乙個月之後能有個提高吧。
R與資料分析
r的基本賦值操作 x c 1 100 把1.100個整數向量賦值到x sample x,20 從100個數中隨機不放回地抽取20個值作為樣本 x 1 10 提取1 10號數字 y c 1,3,7,3,4,2 x y 以y為下標的z的元素值 xz setdiff x,z 找出兩個變數中的差異變數 so...
R語言 資料分析
二 大資料分析 三 資料分析常用工具 資料分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發資料資料的功能,發揮資料的作用。資料分析是為了驗證假設的問題,需要提供必要的資料驗證。分析模型構建完成後,需要利用測試資料驗證模型的正確性。資料分析是為了挖掘更多的問題,並...
基於R語言的資料分析和挖掘方法總結 描述性統計
描述性統計包含多種基本描述統計量,讓使用者對於資料結構可以有乙個初步的認識。在此所提供之統計量包含 使用者可選擇多個變數同時進行計算,亦可選擇分組變數進行多組別的統計量計算。例如 mean nile 1 919.35 中位數描述資料中心位置的數字特徵。大體上比中位數大或小的資料個數為整個資料的一半。...