本節來討論一下r語言的基本圖形展示,先來看一張效果圖吧。
這是一張用r語言生成的,虛擬的wordcloud雲圖,具體實現細節請參見我的github專案:
好了我們開始今天的旅程吧:
本節用到的包有:rcolorbrewer用來生成序列顏色值, plotrix三維圖形
本節用到的資料集:vcd包中的arthritis資料集
install.packages("vcd")
library('vcd')
install.packages(plotrix) #將圖形包也一併安裝了
library(plotrix)
data(package='vcd') # 檢視vcd包得全部資料集
class(arthritis) # 檢視資料集型別
names(arthritis) # 檢視列名
arth
arth[1:10,] #檢視前10行資料
#該資料集最後一列improved為因子型資料。
table(arth$improved) #檢視因子水平的count值
col
barplot(table(arth$improved),col=col,xlab='improved',ylab='count',main='statisticsof improved') #繪製柱狀圖
barplot(table(arth$improved),col=col,horiz=t,xlab='count',ylab='improved',main='statisticsof improved') #水平柱狀圖
barplot(counts,col=col,legend=rownames(counts),width=0.1) #堆砌條形圖
barplot(counts,col=col[1:3],legend=rownames(counts),width=0.1,beside=t)#分組條形圖
par(mfrow=c(1,2)) # 定義橫向畫布,兩格布局
label
ages
pie(table(ages),family='stkaiti') # 畫出餅圖
pie(table(ages),labels=paste(levels(ages),':',round(table(ages)/sum(table(ages))*100,2),'%'),family='stkaiti',main='關節炎發病率年齡段佔比')
pie3d(table(ages),labels= paste(round(table(ages)/sum(table(ages))*100,2),'%'),family='stkaiti',main='關節炎發病率年齡段佔比',explode=0.1)# 3d 餅圖
我們採用mtcars資料集來進行圖形繪製:
h
lines(density(mtcars$mpg),col='blue',lwd=2)#新增核密度圖
如果要單獨繪製和密度圖的話可以這樣:
plot(density(mtcars$mpg),main='densityof car gallon')
圖中我們可以看到,我們得核密度函式採用的高斯核,方差為2.477,樣本取樣為32個。
箱線圖,通過繪製連續型變數的五數總括,即最小值(對應圖中最下面那條線)、下四分位數(對應第二條線)、中位數(對應最中間那條線)、上四分位數(對應箱子上邊沿) 以及最大值(對應最上面那條線),描述了連續型變數的分布。並且可以將離群點列出。
例如我們還拿mtcars資料集,其中mpg是每百公里油耗,cyl是發動機汽缸數,要對比不同得汽缸數對每加侖汽油行駛的公里數的影響就可以這樣作圖:
boxplot(mpg ~ cyl,data=mtcars,main='car milage data',xlab='number of cylinder',ylab='miles per gallon')
從圖中我們可以明顯看到,4缸發動機有效利用率最高,6缸的最穩定,8缸利用率低且不夠穩定。
R語言資料分析系列之五
本節來討論一下r語言的基本圖形展示,先來看一張效果圖吧。這是一張用r語言生成的,虛擬的wordcloud雲圖,詳細實現細節請參見我的github專案 好了我們開始今天的旅程吧 本節用到的包有 rcolorbrewer用來生成序列顏色值,plotrix三維圖形 本節用到的資料集 vcd包中的arthr...
R語言資料分析系列六
上一節講了r語言作圖,本節來講講當你拿到乙個資料集的時候怎樣下手分析,資料分析的第一步。探索性資料分析。統計量,即統計學裡面關注的資料集的幾個指標。經常使用的例如以下 最小值,最大值,四分位數,均值,中位數,眾數,方差,標準差。極差,偏度,峰度 先來解釋一下各個量得含義,淺顯就不說了,這裡主要說一下...
R語言資料分析系列之九 邏輯回歸
本節將一下邏輯回歸和r語言實現,邏輯回歸 lr,logisticregression 其實屬於廣義回歸模型,根據因變數的型別和服從的分布可以分為,普通多元線性回歸模型,和邏輯回歸,邏輯回歸是指因變數是離散並且取值範圍為兩類,如果離散變數取值是多項即變為 multi class classificat...