生信基礎(三) 統計分析工具R語言

2021-08-29 07:52:01 字數 1142 閱讀 1866

原創: hxj7

作為乙個生信er,光會處理文字資料是不夠的,還要能進行統計分析。作為乙個開源軟體,r在統計社群「大行其道」,在生信分析人員中更是「一家獨大」。為啥?因為r語言就是一群統計學家開發的,統計函式齊全,新的統計方法很快就會有相應的包被開發出來。複雜的統計分析往往兩三行**就可以完成,那個方便呦,誰用誰知道!

(不過,也有許多學計算機專業出身的同學很不喜歡r,各種不順眼…。比如,r的陣列下標是從1開始的,而諸如c、python等語言都是從0開始,光這一點就讓他們抓狂。他們迫不及待地就去擁抱numpy、pandas了!)

圖1:lm函式進行線形回歸分析,一行**即可實現

那如何學習r呢?方法很多,我個人是看著《r語言實戰》這本書自學的。相信很多生信人都知道它,誠如作者在書中說,當時國內r語言的資料很少,許多想學習r語言的人都備受煎熬。以至於這本書一問世,便廣受好評(像不像做廣告的~)

圖2:《r語言實戰 第二版》

上面講了那麼多,還有一點不得不提。其實r為眾多行業的人廣泛接受,不止因為它強大而便捷的統計分析功能,還因為用r可以輕鬆畫出專業而精美的(外貌協會的人有福了)。我認識的一些學經濟、金融的同學都是r的高手,據他們說,商業報表中的很多精美都是用r做出來的。另外,正如黃小仙童鞋《我是如何「被逼無奈」開始學r的》一文中所展示的那樣,生物學文獻中統計結果的圖大部分都是用r畫出來的。r,就是集美貌與才華於一身的翩翩少年!

圖3:r可以輕鬆畫出基因表達的箱線圖

至此,「生信基礎」系列就告一段落了。簡單來說,生信人員常用的三種語言shell、python/perl、r最好都能熟練掌握。無論以後的工作內容/研究方向是什麼,這三種語言都是基礎。比如,現在很火的機器學習,其在生信領域也是應用廣泛。不同於很多計算機專業的人選擇用python/c++來實現機器學習演算法,你會發現生信人更多地用r來進行機器學習演算法分析。如果你已經掌握了python或者r,那麼入門機器學習的時候在程式語言這一關你會少了很多阻礙。

r語言與統計分析考試題 R語言與統計分析第四章答案

第四章習題 4.1 xhist x,main c 1000 個引數為 0.3的伯努利分布隨機數 4.2 xhist x,probability t,xlim c min x max x nclass max x min x 1,col lightblue main c 1000 個正態分佈隨機數 l...

R語言的基本統計分析

描述性統計分析 利用 mtcars 資料集,我們提取出英里數 mpg 馬力 hp 車重 wt myvars c mpg hp wt head mtcars myvars mpg hp wt mazda rx4 21.0 1102.620 mazda rx4 wag 21.0 1102.875 dat...

R語言基本統計分析 抽樣

簡單隨機抽樣是指從資料總體中任意抽取指定數量的資料作為樣本,其中每個可能被抽取中的樣本概率相等。可以用r語言中的sample 函式進行隨機抽樣。抽取方法分為 重置抽樣,不重置抽樣。r語言命令為 sample x,size,replace false,prob null 其中,x為樣本資料,size為...