關於大資料和r語言
資料化分析
(文/@資料化分析)
有一年多沒有更新博文了,主要是因為各種繁忙。
儘管有很多看似合理的理由,但內心的聲音還是希望能夠堅持。
之前看了幾本關於大資料的書,本來想分享一下自己讀後的心得體會,但是說實話,個人感覺書中大都是一些概念性的東西,並沒有從中獲得多少很有價值的營養,一般在實際工作中好像跟以前沒有什麼大的區別,而且我對《大資料時代》中所謂的「知道是什麼就夠了」的論調不大贊同,真的「沒必要知道為什麼」嗎?我認為,就算資料再大,知道因果關係還是非常重要的!
在大資料時代,我相信社會將會更快地發生一些變革,而經過分析的資料將變得更有價值,其中分析資料的人特別關鍵。針對同樣的資料,不同的人可能會運用不同的方法、不同的工具,對資料的理解可能千差萬別,分析出來的結果就可能大相徑庭。
在對業務充分理解的基礎上,我比較注重分析工具的使用,最近計畫系統地學習一下r語言。
下面推薦了16本學習書籍,有點多!沒關係,慢慢來!從入門開始,根據工作需要再學習相應的高階技術。
一、初學入門:
《r in action》
《the art of r programming》
入門者可首選兩本,前者從統計角度入手,分高中低三部分由淺入深的講解了如何用r來實現統計分析,另外此書已經有中文版面世。後者從程式編寫的角度入手,對r的本身特點進行了清晰的介紹,也有中文版。
《learning r》
這本書沒有單純的講語法,而是和資料分析的流程結合了起來,從資料獲取到資料整理再到分析和報告,有一氣呵成的感覺,此外最後兩章講如何寫穩健的r**以及寫包都是非常精彩的。
二、統計高階:
《a handbook of statistical analyses using r》
這兩本書基本上涵蓋了統計的一些高階內容,例如多元分析、多層回歸模型、薈萃分析、生存分析等內容。案例豐富,公式不多,值得反覆學習參考。
三、科學計算:
《introduction to scientific programming and simulation using r》
除了統計分析外,此書獨特之處在於使用r來做數值分析,如求根,最優化,數值積分。還包括了一些常見的模擬技術。書後的習題和最後的案例非常有用。
四、資料探勘:
《data mining with r learning with case studies》
《machine learning for hackers》
兩本側重於資料探勘的r書,全是以案例為線索,示範的**量很大。跟一遍下來會有很大的收穫。
《an introduction to statistical learning》這本書可以說是另一本資料探勘大作《the elements of statistical learning》的r實現手冊,體系結構基本一致,更強調用r來實現,更難得的地方是提供了很好的習題。
五、資料繪圖:
《ggplot2 elegant graphics for data analysis》
ggplot2還有什麼好說的呢,r中最優秀的繪圖包,但由於近期該包公升級很快,這書顯得有些過時。好在中文版進行了大幅更新。
《r graphics cookbook》這本書也是rstudio公司的人出的,似乎是hadley的學生吧,主要是各種ggplot2包的例子,也包括了用其它包來畫圖,建議通讀一遍。
六、參考手冊:
《r cookbook》
《r in a nutshell》
有時候我們需要類似詞典的案頭參考手冊,以方便隨時查閱。又或者可以通讀一遍以查漏補缺。上面兩本書雖然有些厚度,但仍然推薦之。
七、高階程式設計:
《r programming for bioinformatics》
《software for data analysis programming with r》
如果你是初學者,不要去看上面兩本書。如果你想高階為專家級r使用者,那你需要精讀它們。前者講解了r少為人知的一面,例如字元處理、正則表達和xml,還有報錯處理以及與其它語言的互動。後者更是編寫生產級**的聖經指南。
《advanced r programming》hadley的力作,
清楚的講解了r的函式式程式設計思想和寫r包的各種細節,要邁入r高手,不得不讀。
大資料基礎 R語言
目錄 1.r語言是解釋性語言還是編譯性語言?2.簡述r語言的基本功能。3.r語言通常用在哪些領域?4.r語言常用的分類和 演算法有哪些?5.簡述如何利用r程式包進行資料分析 建模和資料 6.如何使用 聚類 和 分類 對資料樣本進行分組。7.sparkr dataframe的作用有哪些?8.簡述spa...
大資料R語言簡析
r語言是用於統計分析 畫圖的語言和操作環境。r是屬於gnu系統的乙個自由 免費 原始碼開放的軟體。它是乙個用於統計計算和統計製圖的優秀工具。r是統計領域廣泛使用的誕生於1980年左右的s語言的乙個分支。能夠覺得r是s語言的一種實現。而s語言是由at t貝爾實驗室開發的一種用來進行資料探索 統計分析和...
大資料之R語言是什麼?
r是用於統計分析 繪圖的語言和操作環境。r是屬於gnu系統的乙個自由 免費 源 開放的軟體,它是乙個用於統計計算和統計製圖的優秀工具。發展歷史 r是統計領域廣泛使用的誕生於1980年左右的s語言的乙個分支。可以認為r是s語言的一種實現。而s語言是由at t貝爾實驗室開發的一種用來進行資料探索 統計分...