學習筆記 sklearn資料集與估計器

2022-07-06 16:54:14 字數 1596 閱讀 1106

機器學習一般的資料集會劃分為兩個部分:

訓練資料和測試資料常用的比例一般為:70%: 30%, 80%: 20%, 75%: 25%

sklearn資料集劃分api:

sklearn.model_selection.train_test_split

常用引數:

返回值:訓練資料特徵值,測試資料特徵值,訓練資料目標值,測試資料目標值的元組

自己準備資料集耗時耗力,而且不一定真實,scikit-learn提供了非常方便的獲取資料集的api。

sklearn.datasets:載入獲取流行資料集

load*和 fetch* 函式返回的資料型別是 datasets.base.bunch,本質上是乙個 dict,它的鍵值對可用通過物件的屬性方式訪問。主要包含以下屬性:

sklearn.datasets.clear_data_home(data_home=none):刪除儲存目錄中的資料

載入小批量資料:

載入並返回鳶尾花資料集,並對其進行劃分:

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

li = load_iris()

# print("獲取特徵值")

# print(li.data)

# print("獲取目標值")

# print(li.target)

# print(li.descr)

x_train, x_test, y_train, y_test = train_test_split(

li.data, li.target, test_size=0.25)

print("訓練集特徵值和目標值", x_train, y_train)

print("測試集特徵值和目標值", x_test, y_test)

載入大批量的資料:

sklearn.datasets.fetch_20newsgroups(data_home=none,subset=『train』)

from sklearn.datasets import load_iris, fetch_20newsgroups

news = fetch_20newsgroups()

print(news.data)

print(news.target)

載入波士頓房價

from sklearn.datasets import load_boston

lb = load_boston()

print("獲取特徵值")

print(lb.data)

print("獲取目標值")

print(lb.target)

print(lb.descr)

在sklearn中,估計器(estimator)是乙個重要的角色,分類器和回歸器都屬於estimator,是一類實現了演算法的api。

1、用於分類的估計器:

2、用於回歸的估計器:

估計器的工作流程:

機器學習 sklearn資料集簡介

監督學習 特徵值 目標值 分類 目標值是離散資料 回歸 目標值是連續資料 無監督學習 只有特徵值 聚類資料 訓練集 80 70 75 測試集 20 30 25 資料拆分 sklearn.model selection.train test split sklearn資料集 sklearn.datas...

sklearn學習 探索資料集的過程

sklearn中文學習文件 sklearn資料集參考 在sklearn中自帶部分資料如datasets包中,所返回的物件是sklearn.utils.bunch,這個類似於字典.屬性有 首先推薦使用jupyternotebook進行模型的搭建,這樣你可以使用快捷鍵 shift tab 檢視該函式的文...

sklearn學習筆記

1.波士頓房價線性回歸模型 from sklearn import datasets from sklearn.linear model import linearregression boston datasets.load boston data x boston.data y boston.t...