sklearn第七講 資料集載入工具

2021-08-20 14:59:35 字數 1417 閱讀 1364

sklearn.datasets包內建了一些小規模的示例資料集。為了評估資料規模的影響,控制資料的統計屬性(典型的是特徵的相關性和忠實度),也可以產生合成資料。該包也可以作為評價機器學習演算法效能的基準資料集的所在。

對於不同型別的資料集,有三個不同型別的資料集介面。最簡單的是樣本影象介面。資料集生成函式和svmlight載入器共享乙個簡化介面,返回乙個元組(x, y). 該元組包括乙個n_samples * n_features numpy陣列x, 乙個長度為n_samples, 包括目標變數y的陣列。

示例資料集(toy datasets)、真實資料集和來自mldata.org的資料集,結構更加複雜。這些函式返回類字典的物件,至少包括兩項:乙個形如n_samples * n_features的陣列,擁有data鍵;乙個長度為n_samples的numpy陣列,擁有target鍵。

資料集也包括descr描述,一些資料集包括feature_names and target_names.

這些資料集可以用來快速檢驗不同演算法的表現,然而,因為資料規模太小,它們並不能代表演算法對來自真實世界的資料的真正表現。

scikit也自帶了幾個jpeg影象樣本資料集。這些資料集可以被用來檢驗演算法和pipeline 2d資料。

scikit-learn包括不同的隨機樣本生成器,可以創造大小和複雜度可控的人造資料集。

生成對應離散target的特徵矩陣,這裡主要介紹單個類標籤的情況。

make_blobs,make_classification都可以產生多個類別的資料集,這是通過分配每個類乙個或者多個正態分佈的資料點實現的。make_blobs提供了關於每個類的中心和標準差的更大控制,所以主要用來演示聚類。make_classification通過以下形式規定資料的噪音:

make_circlesandmake_moons可以產生二維二值分類資料集,包括最佳的高斯噪音。

make_regression通過隨機特徵的最優線性組合,再加入隨機誤差,產生回歸的目標變數。make_sparse_uncorrelated通過具有固定係數的四個特徵的線性組合,產生目標變數。

mnist資料庫由總共7萬個手寫數字的例項組成,每個例項是大小為28×28

28\times28

28×2

8的畫素,標籤0~9的數字。

sklearn第四講 資料集變換

scikit learn提供了乙個資料變換庫,可以實現清洗 縮減 擴充套件或產生特徵表示。類似其它估計量,這些都由具有fit方法的類表示。fit方法從訓練集學習模型引數 例如均值和標準差 transform方法應用這個變換模型到未知資料上。而fit transform方法可以更方便高效地同時建模和變...

機器學習第七講

第七講 最優化 1.優化目標 2.梯度下降 隨機梯度下降sgd 訓練乙個樣本,更新 次引數 mini batch是sgd的推廣,通常所說sgd即是mini batch。病態條件 病態條件 不同方向有不同的梯度 學習率的選擇困難。區域性最小 區域性最小 local minima 權重空間是對稱的 放大...

資料庫大講解第七講

主要採用的是mysql資料庫,其中會有提到其他資料庫 前期 準備 前期準備建立資料庫employe並建立多個表 前期是隨便練習後邊知識由淺入深 前邊幾頁是練習 所需要的各種表 裡面有中文符號最好自己動手敲 建立資料庫 select emp id 10 from employe2 select cou...