機器學習例項第二章 資料分析

2021-07-30 19:33:42 字數 2558 閱讀 7558

#機器學習例項第二章:資料分析

height.weight <-  read.delim("e:\\ml_for_hackers-master\\02-exploration\\data\\01_heights_weights_genders.csv",

sep = ",",header = true )

summary(height.weight)

#僅檢視heights.weights中的height的各個值

heights <- with(height.weight, height)

summary(heights)

#計算均值的函式:把向量中的值求和,在除以長度

my.mean <- function()

#計算中位數:首先,對向量排序,因為中位數本質上是有序向量中間那個數。如果列表長度是偶數,

#則在資料集中間有兩個數,這兩個數所在位置相當於列表長度為奇數的情況下中的中位數,對這兩個數求均值即可

my.median <- function(x)

else

}my.vector <- c(0,0,100)

my.vector

mean(my.vector) #應用上面的函式求均值

my.median(my.vector) #應用上面的函式求中位數

#回到本列中

mean(heights)

my.median(heights)

#分位數

min(heights)

max(heights)

c(min(heights),max(heights))  #將身高的最小值和最大值結合起來

range(heights) #求出身高的範圍

quantile(heights)  

quantile(heights,probs = seq(0,1,by = 0.20))  #得到不同位置的分位數,需要用probs傳入擷取位置

seq(0,1,by = 0.20)  #seq函式在0-1之間嘗試乙個步長為0.2的序列

#計算包含50%資料的範圍

c(quantile(heights,probs = 0.25),quantile(heights,probs = 0.75))

#計算包含95%的資料範圍

c(quantile(heights,probs = 0.025),quantile(heights,probs = 0.095))

#方差:為了衡量資料集裡面任意數值與均值的平均偏離程度

my.var <- function(x)

my.var(heights) - var(heights)

#與均值相差正負單位方差之間的數值

c(mean(heights) - var(heights),mean(heights) + var(heights))

#構造正態分佈函式和柯西函式

set.seed(1)

normal.values <- rnorm(250,0,1) #正態分佈

cauchy.values <- rcauchy(250,0,1) #柯西函式

range(normal.values)

range(cauchy.values)

#把結果畫出來

ggplot(data.frame(x = normal.values),aes(x = x)) + geom_density() #正態分佈

ggplot(data.frame(x = cauchy.values),aes(x = x)) + geom_density() #柯西分布

#伽瑪分布:伽瑪分布是向右傾斜的,意味著中位數和均值有時差距很大

gamma.values <- rgamma(100000,1,0.001)

ggplot(data.frame(x = gamma.values),aes(x = x)) + geom_density()

#體重和身高資料視覺化

ggplot(height.weight,aes(x = height,y = weight)) + geom_point()

#用平滑的模式畫出來,在本列中,**的趨勢是一條簡單的曲線,曲線的陰影區是體重**值的範圍

ggplot(height.weight,aes(x = height,y =weight)) + geom_point() + geom_smooth()

#選擇不同資料進行擬合

ggplot(height.weight[1:20,],aes(x = height,y = weight)) + geom_point() + geom_smooth()

ggplot(height.weight[1:200,],aes(x = height,y = weight)) + geom_point() + geom_smooth()

ggplot(height.weight[1:2000,],aes(x = height,y = weight)) + geom_point() + geom_smooth()

#加入性別,不同顏色表示不同性別

ggplot(height.weight,aes(x = height,y = weight,color = gender)) + geom_point()

資料分析第二章

2.1 numpy 陣列物件ndarray 2 1 import numpy as np 匯入 numpy 庫 arr1 np.array 1,2,3,4 建立一維陣列 print 建立的陣列為 arr1 建立二維陣列 arr2 np.array 1,2,3,4 4,5,6,7 7,8,9,10 p...

Python資料分析筆記 第二章

3.run 4.paste和 cpaste 5.常用魔術命令 6.格式化輸出 7.isinstance 8.iter 函式 9.模組 10.可變物件與不可變物件 11.標量型別 12.格式化字串 13.encode和decode 15.日期和時間 16.三元表示式 在變數的後面加?即可 2.1乙個問...

第二章 機器學習基礎

資料 外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳 img wmztjylh 1604898572231 mgs 1.png 特徵空間 feature space 分類任務本質就是在特徵空間切分 在高維空間同理 特徵可以很抽象 分類 多標籤分類 回歸 監督 學習 非監督學習 輔助監督學...