機器學習資料

2022-08-14 08:18:10 字數 3187 閱讀 5080

自帶的小的資料集為:sklearn.datasets.load_

怎麼用:

資料集的資訊關鍵字:

資料介紹:

第一步:

匯入資料

from sklearn.datasets import load_iris

iris = load_iris()

第二步:

定義x和y

x, y = iris.data, iris.target

此外,可以看下資料的維度:

x.shape,y.shape輸出為:

((150, 4), (150,))

檢視特徵名:

iris.feature_names輸出為:

['sepal length (cm)',

'sepal width (cm)',

'petal length (cm)',

'petal width (cm)']

檢視標籤名:

iris.target_names

輸出為:

array(['setosa', 'versicolor', 'virginica'], dtype='劃分訓練集和測試集:

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

這樣就把訓練集和測試集按照3比1劃分了,接下來就可以用機器學習演算法進行訓練和測試了。

小技巧:將資料轉換為dataframe格式(兩種方法都可以):

import pandas as pd

df_x = pd.dataframe(iris.data, columns=iris.feature_names)

#這個是x

df_y = pd.dataframe(iris.target, columns=["target"])

#這個是y

df=pd.concat([df_x,df2],axis=1)#橫向合併

df.head()

或者:

import numpy as np

import pandas as pd

col_names = iris['feature_names'] + ['target']

df = pd.dataframe(data= np.c_[iris['data'], iris['target']], columns=col_names)

df.head()

輸出結果一致:

用於文字分類、文字挖據和資訊檢索研究的國際標準資料集之一。資料集收集了大約20,000左右的新聞組文件,均勻分為20個不同主題的新聞組集合。返回乙個可以被文字特徵提取器

這是上面這個文字資料的向量化後的資料,返回乙個已提取特徵的文字序列,即不需要使用特徵提取器

加利福尼亞的房價資料,總計20640個樣本,每個樣本8個屬性表示,以及房價作為target,所有屬性值均為number,詳情可呼叫fetch_california_housing()['descr']了解每個屬性的具體含義;

森林植被型別,總計581012個樣本,每個樣本由54個維度表示(12個屬性,其中2個分別是onehot4維和onehot40維),以及target表示植被型別1-7,所有屬性值均為number,詳情可呼叫fetch_covtype()['descr']了解每個屬性的具體含義

kdd競賽在2023年舉行時採用的資料集,kdd99資料集仍然是網路入侵檢測領域的事實benckmark,為基於計算智慧型的網路入侵檢測研究奠定基礎,包含41項特徵

打好標籤的人臉資料集

從 olivetti 臉部資料集

路透社新聞語聊資料集

物種分布資料集

from sklearn.datasets import fetch_20newsgroups

from sklearn.model_selection import train_test_split

#對資料訓練集和測試件進行劃分

x_train, x_test, y_train, y_test = train_test_split(

news.data, news.target, test_size=0.25, random_state=33)

三、生成資料集可以用來分類任務,可以用來回歸任務,可以用來聚類任務,用於流形學習的,用於因子分解任務的,用於分類任務和聚類任務的:這些函式產生樣本特徵向量矩陣以及對應的類別標籤集合

舉例:

四、其它資料集

kaggle:

天池:

搜狗實驗室:

dc競賽:

df競賽:

總結

本文為機器學習初學者提供了使用scikit-learn內建資料的方法,用兩行**就可以使用這些資料,可以進行大部分的機器學習實驗了。

參考

機器學習資料

出處 本列表選編了一些機器學習領域牛b的框架 庫以及軟體 按程式語言排序 計算機視覺 通用機器學習通用機器學習自然語言處理 通用機器學習 資料分析 資料視覺化自然語言處理 通用機器學習 資料分析 資料視覺化自然語言處理 資料分析 資料視覺化 通用機器學習通用機器學習 自然語言處理 資料分析 資料視覺...

機器學習資料

北理工機器學習課程project題目彙總 特徵選擇方法 機器學習中防止過擬合的處理方法 機器學習中的相似性度量 向量空間中的相似度度量方法 在分類中如何處理訓練集中不平衡問題 梯度下降 隨機梯度下降和批量梯度下降 無約束優化方法讀書筆記 入門篇 libsvm minist hog 手寫體識別 最大似...

機器學習資料

學習machine learning也有很長一段時間了,前段時間在 中應用了gtb gradient tree boosting 演算法。在我的資料集上gtb的performance比random forest要稍微強一點,整個experiment做完之後,有許多東西都來不及及時整理,很多都遺忘了。...