資料集劃分的api
返回值:訓練特徵,測試特徵,訓練目標,測試目標
#方式1:獲取小規模的資料集importsklearn.datasets as datasets
iris =datasets.load_iris()
#提取樣本資料
feature = iris['data']
target = iris['target']
feature.shape
(150, 4)
target.shape
(150,)
target
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])
#切分樣本資料
from sklearn.model_selection importtrain_test_split
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020) #random_state後面跟什麼數都行 作用是把資料集打亂
x_train,y_train #訓練集資料
x_test,y_test #測試集資料#方式2:獲取較大規模的資料集機器學習中的資料型別datasets.fetch_20newsgroups(data_home='資料集儲存路徑',subset='all')
連續型資料:
注意:機器學習演算法分類
機器學習開發流程
2.分析資料所對應要解決需求或者問題是什麼?根據目標資料推斷問題屬於回歸還是分類!
3.資料的基本處理
4.特徵工程:對特徵進行處理
5.選擇合適的模型,然後對其進行訓練
6.模型的評估
7.上線使用
機器學習 機器學習目錄
注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...
機器學習 機器學習概論
3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...
機器學習 機器學習中的基礎概念
基本概念 訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,回歸 概念學習 人類學習概念 鳥,車,計算機 定義 概念學習是指從有關某個布林函式的輸入輸出訓訓練陽曆中推斷出該布林數 例子 學習 享受運動 這一概念 小明進行水上運動,是否享受運動取決於很多因素 這裡舉乙個例子 小明是否進行...