python爬蟲人工智慧教程:www.python88.cn應用程式設計資源網:www.python66.cn
kaggle**:
uci資料集**:
scikit-learn**:
1 scikit-learn工具介紹
2 安裝
pip3 install scikit-learn==0.19.1
安裝好之後可以通過以下命令檢視是否安裝成功
import sklearn
3 scikit-learn包含的內容
1 scikit-learn資料集api介紹
datasets.fetch_*(data_home=none)
2 sklearn小資料集
3 sklearn大資料集
4 sklearn資料集的使用
sklearn資料集返回值介紹
from sklearn.datasets import load_iris
# 獲取鳶尾花資料集
iris = load_iris()
print("鳶尾花資料集的返回值:\n", iris)
# 返回值是乙個繼承自字典的bench
print("鳶尾花的特徵值:\n", iris["data"])
print("鳶尾花的目標值:\n", iris.target)
print("鳶尾花特徵的名字:\n", iris.feature_names)
print("鳶尾花目標值的名字:\n", iris.target_names)
print("鳶尾花的描述:\n", iris.descr)
思考:拿到的資料是否全部都用來訓練乙個模型?機器學習一般的資料集會劃分為兩個部分:
劃分比例:
資料集劃分api
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
"""對鳶尾花資料集的演示
:return: none
"""# 1、獲取鳶尾花資料集
iris = load_iris()
print("鳶尾花資料集的返回值:\n", iris)
# 返回值是乙個繼承自字典的bench
print("鳶尾花的特徵值:\n", iris["data"])
print("鳶尾花的目標值:\n", iris.target)
print("鳶尾花特徵的名字:\n", iris.feature_names)
print("鳶尾花目標值的名字:\n", iris.target_names)
print("鳶尾花的描述:\n", iris.descr)
# 2、對鳶尾花資料集進行分割
# 訓練集的特徵值x_train 測試集的特徵值x_test 訓練集的目標值y_train 測試集的目標值y_test
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
print("x_train:\n", x_train.shape)
# 隨機數種子
x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
print("如果隨機數種子不一致:\n", x_train == x_train1)
print("如果隨機數種子一致:\n", x_train1 == x_train2)
return none
機器學習處理離散資料 機器學習一 資料預處理
為了能更系統的整理到學的知識進行乙個整理,也作為乙個自我監督,接下來就把較為系統的知識點都整理到部落格上。相應的 也會同步到github上。下面所有的 都是使用python寫的,資料預處理主要用到的是sklearn.preprocessing模組 sklearn.apachecn.org cn 0....
機器學習全套教程(十) 模型選擇與調優
python爬蟲人工智慧教程 www.python88.cn 程式設計資源網 www.python66.cn 應用 交叉驗證目的 為了讓被評估的模型更加準確可信 交叉驗證 將拿到的訓練資料,分為訓練和驗證集。以下圖為例 將資料分成5份,其中乙份作為驗證集。然後經過5次 組 的測試,每次都更換不同的驗...
機器學習資料集
ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...