這算是我第一次正式、系統學習【機器學習】和【整合學習】,言外之意我就是個小白(交通專業,不過對用python進行資料分析還是有基礎的)~~關於打卡,我只想把自己最關心的、對我最有價值的部分提取出來,一方面算作給自己的回憶,另一方面也算做給和我同樣水平的小夥伴的分享吧!一句話概括機器學習:利用數學模型來理解資料,發現資料中的規律,用作資料的分析和**。這個資料長啥樣呢?從我的專業接觸的資料分析概念出發,可以簡單粗暴認為資料就是乙個
dataframe
表,一行表示乙個樣本x
ix_i
xi,一列表示所有樣本的乙個特徵x(k
)x^x(k)
。有了資料,機器學習的任務是啥呢?根據資料是否有因變數,機器學習的任務可分為有監督學習和無監督學習。
有監督學習和無監督學習的區別是什麼?
有監督學習:給定某些特徵去估計因變數;
無監督學習:給定某些特徵但不給定因變數,建模的目的是學習資料本身的結構和關係。
本期機器學習的重點是【有監督學習】,那麼有監督學習怎麼分類?
回歸:因變數是連續型變數;
分類:因變數是離散型變數。
機器學習的工具是什麼?sklearn
下面進入實操!
第一步:匯入要用的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use(
"ggplot"
)import seaborn as sns
第二步:匯入資料因為是導論嘛,就用例子來說明問題吧。這裡使用sklearn內建資料集boston房價資料集。
sklearn
中所有內建資料集都封裝在datasets物件內,返回的物件有:
from sklearn import datasets
boston = datasets.load_boston(
)# 返回乙個類似於字典的類
x = boston.data
y = boston.target
features = boston.feature_names
boston_data = pd.dataframe(x,columns=features)
# 注意這種生成**的方式
boston_data[
"price"
]= y
這個資料長下面這樣:
第三步:分析資料
各個特徵的含義如下:
因變數:price——房價
可以看出,因變數為波士頓房價price是乙個連續型變數,所以這是乙個回歸的例子。第一步:匯入要用的包(和回歸部分相同)第二部:匯入資料這裡使用
sklearn
內建iris
資料集。
from sklearn import datasets
iris = datasets.load_iris(
)x = iris.data
y = iris.target
features = iris.feature_names
iris_data = pd.dataframe(x,columns=features)
iris_data[
'target'
]= y
這個資料長下面這樣:
第三步:分析資料
各特徵的含義如下:
因變數:target——型別
為了更直觀地看這個資料,畫個圖:
marker =
['s'
,'x'
,'o'
]plt.rcparams[
'font.sans-serif']=
['times new roman'
]plt.rcparams[
'axes.unicode_minus']=
false
plt.figure(figsize =(5
,3), dpi =
512)
for index,c in
enumerate
(np.unique(y)):
plt.scatter(x=iris_data.loc[y==c,
"sepal length (cm)"],
y=iris_data.loc[y==c,
"sepal width (cm)"],
alpha=
0.8,label=c,marker=marker[c]
)plt.xlabel(
"sepal length (cm)"
)plt.ylabel(
"sepal width (cm)"
)plt.legend(
)plt.show(
)
注意!這裡用迴圈來對每一各target對應的值進行散點圖繪製。一點小的技巧:
先看看花萼長度-花萼寬度的相關關係:
再看花瓣長度-花瓣寬度的相關關係:
可以看出,每種不同的顏色和點的樣式為一種型別的鳶尾花,資料集有三種不同型別的鳶尾花(因變數是乙個類別變數),因此通過特徵**鳶尾花類別的問題是乙個分類問題。
機器學習Task01
x,y 輸入資料,array like,shape n,s 點的大小 標量或array like,shape n,可選 大小以點數 2。預設是rcparams lines.markersize 2。c 點的顏色 順序或顏色順序,可選,預設 b c可以是單個顏色格式的字串,也可以是一系列顏色 規範的長...
Task01 熟悉機器學習的三大主要任務
什麼是機器學習?機器學習的乙個重要的目標就是利用數學模型來理解資料,發現資料中的規律,用作資料的分析和 通常在乙個資料表dataframe裡面,一行表示乙個樣本?一列表示乙個特徵。根據資料是否有因變數 響應變數,y,結果集 機器學習的任務可分為 有監督學習和無監督學習。根據因變數的是否連續,有監督學...
整合學習(上) 3
訓練均方誤差與測試均方誤差 偏差 方差的權衡 特徵提取 壓縮估計 正則化 對回歸的係數進行約束或者加罰的技巧對p個特徵的模型進行擬合,顯著降低模型方差,這樣也會提高模型的擬合效果。具體來說,就是將回歸係數往零的方向壓縮,這也就是為什麼叫壓縮估計的原因了。降維 示例 from sklearn impo...