什麼是機器學習?機器學習的乙個重要的目標就是利用數學模型來理解資料,發現資料中的規律,用作資料的分析和**。資料通常由一組向量組成,這組向量中的每個向量都是乙個樣本,我們用 ?? 來表示乙個樣本,其中 ?=1,2,3,…,? ,共n個樣本,每個樣本 ??=(??1,??2,…,???,??) 共p+1個維度,前p個維度的每個維度我們稱為乙個特徵,最後乙個維度 ?? 我們稱為因變數(響應變數)。特徵用來描述影響因變數的因素,如:我們要探尋身高是否會影響體重的關係的時候,身高就是乙個特徵,體重就是乙個因變數。通常在乙個資料表dataframe裡面,一行表示乙個樣本 ??,一列表示乙個特徵。
根據資料是否有因變數,機器學習的任務可分為:有監督學習和無監督學習。
為了更好地敘述後面的內容,我們對資料的形式作出如下約定:
第i個樣本:??=(??1,??2,…,???,??)?, ?=1,2,…,?
因變數 ?=(?1,?2,…,??)?
第k
kk個特徵: ?(?)=(?1?,?2?,…,???)?
特徵矩陣 ?=(?1,?2,…,??)?
在學習機器學習中,我們經常使用scikit-learn簡稱sklearn工具庫來探索機器學習專案,下面我們開始使用sklearn來演示這幾個具體的概念:
# 引入相關科學計算包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use("ggplot")
import seaborn as sns
首先,我們先來看看有監督學習中回歸的例子,我們使用sklearn內建資料集boston房價資料集。sklearn中所有內建資料集都封裝在datasets物件內: 返回的物件有:
from sklearn import datasets
boston = datasets.load_boston() # 返回乙個類似於字典的類
我們可以看到,資料給定任務所需要的因變數,因變數為波士頓房價price是乙個連續型變數,所以這是乙個回歸的例子。
我們來看看乙個分類的例子,大名鼎鼎的iris資料集:
# 視覺化特徵
各個特徵的相關解釋:
我們可以使用sklearn生成符合自身需求的資料集,下面我們用其中幾個函式例子來生成無因變數的資料集:
# 生成月牙型非凸集
# 生成符合正態分佈的聚類資料
整合學習筆記01 熟悉機器學習的三大主要任務
機器學習主要能分為監督學習和無監督學習,詳細分類參考下圖 這是博主報考cft的筆記,稍作補充 本次學習主要介紹機器學習中有監督學習的回歸和分類的整合學習的問題。形如矩陣ax y的表示式中,y作為因變數向量,a作為自變數矩陣,求解x的過程即為回歸問題。這裡參考博主最近參加的乙個比賽,用到最小二乘法求線...
整合學習 上 機器學習中的三大任務
toc 整合學習 上 task1 機器學習中的三大任務 機器學習的主要的目標就是用數學模型來理解資料,發現資料中的規律,通過發現發現的規律用作資料的分析和 根據資料集是否有因變數,機器學習的任務主要是可以分為 有監督學習和無監督學習 其中有監督學習主要是分為 回歸和分類 返回乙個類似於字典的類 中通...
Task01 機器學習的三大主要任務
接觸可挺久的機器學習了,這次有機會重頭開始學習機器學習,感覺機器學習的發展史需要再梳理一下了 機器學習階段 年份主要成果 代表人物 人工智慧起源 1936 自動機模型理論 阿蘭 圖靈 alan turing 1943 mp模型 沃倫 麥卡洛克 warren mcculloch 沃特 皮茨 walte...