機器學習全套教程(一) 資料集

2021-09-12 22:12:59 字數 2140 閱讀 7926

python爬蟲人工智慧教程:www.python88.cn

程式設計資源網:www.python66.cn

應用

kaggle**:

uci資料集**: 

scikit-learn**:

1 scikit-learn工具介紹

2 安裝

pip3 install scikit-learn==0.19.1
安裝好之後可以通過以下命令檢視是否安裝成功

import sklearn
3 scikit-learn包含的內容

1 scikit-learn資料集api介紹

datasets.fetch_*(data_home=none)

2 sklearn小資料集

3 sklearn大資料集

4 sklearn資料集的使用

sklearn資料集返回值介紹

from sklearn.datasets import load_iris

# 獲取鳶尾花資料集

iris = load_iris()

print("鳶尾花資料集的返回值:\n", iris)

# 返回值是乙個繼承自字典的bench

print("鳶尾花的特徵值:\n", iris["data"])

print("鳶尾花的目標值:\n", iris.target)

print("鳶尾花特徵的名字:\n", iris.feature_names)

print("鳶尾花目標值的名字:\n", iris.target_names)

print("鳶尾花的描述:\n", iris.descr)

思考:拿到的資料是否全部都用來訓練乙個模型?機器學習一般的資料集會劃分為兩個部分:

劃分比例:

資料集劃分api

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

def datasets_demo():

"""對鳶尾花資料集的演示

:return: none

"""# 1、獲取鳶尾花資料集

iris = load_iris()

print("鳶尾花資料集的返回值:\n", iris)

# 返回值是乙個繼承自字典的bench

print("鳶尾花的特徵值:\n", iris["data"])

print("鳶尾花的目標值:\n", iris.target)

print("鳶尾花特徵的名字:\n", iris.feature_names)

print("鳶尾花目標值的名字:\n", iris.target_names)

print("鳶尾花的描述:\n", iris.descr)

# 2、對鳶尾花資料集進行分割

# 訓練集的特徵值x_train 測試集的特徵值x_test 訓練集的目標值y_train 測試集的目標值y_test

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)

print("x_train:\n", x_train.shape)

# 隨機數種子

x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)

x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)

print("如果隨機數種子不一致:\n", x_train == x_train1)

print("如果隨機數種子一致:\n", x_train1 == x_train2)

return none

機器學習處理離散資料 機器學習一 資料預處理

為了能更系統的整理到學的知識進行乙個整理,也作為乙個自我監督,接下來就把較為系統的知識點都整理到部落格上。相應的 也會同步到github上。下面所有的 都是使用python寫的,資料預處理主要用到的是sklearn.preprocessing模組 sklearn.apachecn.org cn 0....

機器學習全套教程(十) 模型選擇與調優

python爬蟲人工智慧教程 www.python88.cn 程式設計資源網 www.python66.cn 應用 交叉驗證目的 為了讓被評估的模型更加準確可信 交叉驗證 將拿到的訓練資料,分為訓練和驗證集。以下圖為例 將資料分成5份,其中乙份作為驗證集。然後經過5次 組 的測試,每次都更換不同的驗...

機器學習資料集

ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...