scikit learn資料集介紹及api使用

load和fetch返回的資料型別datasets.base.bunch(字典格式)

from sklearn.datasets import load_iris，fetch_20newsgroups
news = fetch_20newsgrops()   #大資料集獲取
print(news)
# 獲取鳶尾花資料集
iris = load_iris()   #小資料集獲取
print("鳶尾花資料集的返回值：\n", iris)
# 返回值是乙個繼承自字典的bench
print("鳶尾花的特徵值:\n", iris["data"])
print("鳶尾花的目標值：\n", iris.target)
print("鳶尾花特徵的名字：\n", iris.feature_names)
print("鳶尾花目標值的名字：\n", iris.target_names)
print("鳶尾花的描述：\n", iris.descr)

seaborn 是基於 matplotlib 核心庫進行了更高階的 api 封裝。

安裝：pip3 install seaborn

seaborn.lmplot() 是乙個非常有用的方法，它會在繪製二維散點圖時，自動完成回歸擬合

%matplotlib inline  
# 內嵌繪圖
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd   
# 把資料轉換成dataframe的格式
iris_d = pd.dataframe(iris['data'], columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])    #列名
iris_d['species'] = iris.target   #資料種類
def plot_iris(iris, col1, col2):
sns.lmplot(x = col1, y = col2, data = iris, hue = "species", fit_reg = false)   #hue為目標值
plt.xlabel(col1)
plt.ylabel(col2)
plt.title('鳶尾花種類分布圖')
資料集劃分apireturn 
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 1、獲取鳶尾花資料集
iris = load_iris()
# 對鳶尾花資料集進行分割
# 訓練集的特徵值x_train 測試集的特徵值x_test 訓練集的目標值y_train 測試集的目標值y_test
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("訓練集的特徵值是\n",x_train)
print("訓練集的目標值值是\n",y_train)
print("測試集的特徵值是\n",x_test)
print("測試集的目標值是\n",y_test)
print("訓練集的特徵值形狀是\n", x_train.shape)
# 隨機數種子
x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, test_size=0.2, random_state=6)
x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
print("如果隨機數種子不一致：\n", x_train == x_train1)   #值不同
print("如果隨機數種子一致：\n", x_train1 == x_train2)    #值相同
				Python中scikit learn資料轉換
coding utf 8 import sys import numpy from sklearn import metrics from sklearn.feature extraction.text import hashingvectorizer from sklearn.feature ex...
				Django入門   查詢集QuerySet介紹
在文章 django入門 通過模型類查詢mysql資料庫基本操作中，我們知道函式all filter exclude order by 等的返回值都是queryset型別，對該型別的返回值可以繼續使用上述查詢函式。queryset型別具有一些特性 在使用返回值型別為queryset的函式進行查詢時，...
				利用scikit learn實現資料歸一化
本文主要介紹scikit learn中的資料預處理之歸一化。import numpy as np from sklearn import preprocessing 定義array a np.array 10,2.3,13.7,56,108 print a 對array進行歸一化 normaliza...

scikit learn資料集介紹及api使用

Python中scikit learn資料轉換

Django入門 查詢集QuerySet介紹

利用scikit learn實現資料歸一化

相關推薦

Django入門查詢集QuerySet介紹