整合學習(上)Task01 熟悉機器學習的主要任務

2021-10-22 08:12:03 字數 3387 閱讀 9873

這算是我第一次正式、系統學習【機器學習】和【整合學習】,言外之意我就是個小白(交通專業,不過對用python進行資料分析還是有基礎的)~~關於打卡,我只想把自己最關心的、對我最有價值的部分提取出來,一方面算作給自己的回憶,另一方面也算做給和我同樣水平的小夥伴的分享吧!

一句話概括機器學習:利用數學模型來理解資料,發現資料中的規律,用作資料的分析和**。這個資料長啥樣呢?從我的專業接觸的資料分析概念出發,可以簡單粗暴認為資料就是乙個dataframe表,一行表示乙個樣本x

ix_i

xi​,一列表示所有樣本的乙個特徵x(k

)x^x(k)

有了資料,機器學習的任務是啥呢?根據資料是否有因變數,機器學習的任務可分為有監督學習無監督學習

有監督學習和無監督學習的區別是什麼?

有監督學習:給定某些特徵去估計因變數;

無監督學習:給定某些特徵但不給定因變數,建模的目的是學習資料本身的結構和關係。

本期機器學習的重點是【有監督學習】,那麼有監督學習怎麼分類

回歸:因變數是連續型變數;

分類:因變數是離散型變數。

機器學習的工具是什麼?sklearn

下面進入實操!

第一步:匯入要用的包

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use(

"ggplot"

)import seaborn as sns

第二步:匯入資料因為是導論嘛,就用例子來說明問題吧。這裡使用sklearn內建資料集boston房價資料集。

sklearn中所有內建資料集都封裝在datasets物件內,返回的物件有:

from sklearn import datasets

boston = datasets.load_boston(

)# 返回乙個類似於字典的類

x = boston.data

y = boston.target

features = boston.feature_names

boston_data = pd.dataframe(x,columns=features)

# 注意這種生成**的方式

boston_data[

"price"

]= y

這個資料長下面這樣:

第三步:分析資料

各個特徵的含義如下:

因變數:price——房價

可以看出,因變數為波士頓房價price是乙個連續型變數,所以這是乙個回歸的例子。

第一步:匯入要用的包(和回歸部分相同)第二部:匯入資料這裡使用sklearn內建iris資料集。

from sklearn import datasets

iris = datasets.load_iris(

)x = iris.data

y = iris.target

features = iris.feature_names

iris_data = pd.dataframe(x,columns=features)

iris_data[

'target'

]= y

這個資料長下面這樣:

第三步:分析資料

各特徵的含義如下:

因變數:target——型別

為了更直觀地看這個資料,畫個圖:

marker =

['s'

,'x'

,'o'

]plt.rcparams[

'font.sans-serif']=

['times new roman'

]plt.rcparams[

'axes.unicode_minus']=

false

plt.figure(figsize =(5

,3), dpi =

512)

for index,c in

enumerate

(np.unique(y)):

plt.scatter(x=iris_data.loc[y==c,

"sepal length (cm)"],

y=iris_data.loc[y==c,

"sepal width (cm)"],

alpha=

0.8,label=c,marker=marker[c]

)plt.xlabel(

"sepal length (cm)"

)plt.ylabel(

"sepal width (cm)"

)plt.legend(

)plt.show(

)

注意!這裡用迴圈來對每一各target對應的值進行散點圖繪製。一點小的技巧:

先看看花萼長度-花萼寬度的相關關係:

再看花瓣長度-花瓣寬度的相關關係:

可以看出,每種不同的顏色和點的樣式為一種型別的鳶尾花,資料集有三種不同型別的鳶尾花(因變數是乙個類別變數),因此通過特徵**鳶尾花類別的問題是乙個分類問題。

機器學習Task01

x,y 輸入資料,array like,shape n,s 點的大小 標量或array like,shape n,可選 大小以點數 2。預設是rcparams lines.markersize 2。c 點的顏色 順序或顏色順序,可選,預設 b c可以是單個顏色格式的字串,也可以是一系列顏色 規範的長...

Task01 熟悉機器學習的三大主要任務

什麼是機器學習?機器學習的乙個重要的目標就是利用數學模型來理解資料,發現資料中的規律,用作資料的分析和 通常在乙個資料表dataframe裡面,一行表示乙個樣本?一列表示乙個特徵。根據資料是否有因變數 響應變數,y,結果集 機器學習的任務可分為 有監督學習和無監督學習。根據因變數的是否連續,有監督學...

整合學習(上) 3

訓練均方誤差與測試均方誤差 偏差 方差的權衡 特徵提取 壓縮估計 正則化 對回歸的係數進行約束或者加罰的技巧對p個特徵的模型進行擬合,顯著降低模型方差,這樣也會提高模型的擬合效果。具體來說,就是將回歸係數往零的方向壓縮,這也就是為什麼叫壓縮估計的原因了。降維 示例 from sklearn impo...