load和fetch返回的資料型別datasets.base.bunch(字典格式)
from sklearn.datasets import load_iris,fetch_20newsgroups
news = fetch_20newsgrops() #大資料集獲取
print(news)
# 獲取鳶尾花資料集
iris = load_iris() #小資料集獲取
print("鳶尾花資料集的返回值:\n", iris)
# 返回值是乙個繼承自字典的bench
print("鳶尾花的特徵值:\n", iris["data"])
print("鳶尾花的目標值:\n", iris.target)
print("鳶尾花特徵的名字:\n", iris.feature_names)
print("鳶尾花目標值的名字:\n", iris.target_names)
print("鳶尾花的描述:\n", iris.descr)
seaborn 是基於 matplotlib 核心庫進行了更高階的 api 封裝。
安裝:pip3 install seaborn
seaborn.lmplot() 是乙個非常有用的方法,它會在繪製二維散點圖時,自動完成回歸擬合
%matplotlib inline
# 內嵌繪圖
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# 把資料轉換成dataframe的格式
iris_d = pd.dataframe(iris['data'], columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']) #列名
iris_d['species'] = iris.target #資料種類
def plot_iris(iris, col1, col2):
sns.lmplot(x = col1, y = col2, data = iris, hue = "species", fit_reg = false) #hue為目標值
plt.xlabel(col1)
plt.ylabel(col2)
plt.title('鳶尾花種類分布圖')
資料集劃分apireturn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 1、獲取鳶尾花資料集
iris = load_iris()
# 對鳶尾花資料集進行分割
# 訓練集的特徵值x_train 測試集的特徵值x_test 訓練集的目標值y_train 測試集的目標值y_test
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("訓練集的特徵值是\n",x_train)
print("訓練集的目標值值是\n",y_train)
print("測試集的特徵值是\n",x_test)
print("測試集的目標值是\n",y_test)
print("訓練集的特徵值形狀是\n", x_train.shape)
# 隨機數種子
x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, test_size=0.2, random_state=6)
x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
print("如果隨機數種子不一致:\n", x_train == x_train1) #值不同
print("如果隨機數種子一致:\n", x_train1 == x_train2) #值相同
Python中scikit learn資料轉換
coding utf 8 import sys import numpy from sklearn import metrics from sklearn.feature extraction.text import hashingvectorizer from sklearn.feature ex...
Django入門 查詢集QuerySet介紹
在文章 django入門 通過模型類查詢mysql資料庫基本操作中,我們知道函式all filter exclude order by 等的返回值都是queryset型別,對該型別的返回值可以繼續使用上述查詢函式。queryset型別具有一些特性 在使用返回值型別為queryset的函式進行查詢時,...
利用scikit learn實現資料歸一化
本文主要介紹scikit learn中的資料預處理之歸一化。import numpy as np from sklearn import preprocessing 定義array a np.array 10,2.3,13.7,56,108 print a 對array進行歸一化 normaliza...