監督學習 特徵值 + 目標值
-分類 目標值是離散資料
-回歸 目標值是連續資料
無監督學習 只有特徵值
-聚類
資料
-訓練集 80% 70% 75%
-測試集 20% 30% 25%
資料拆分:
sklearn.model_selection.train_test_split
sklearn資料集
sklearn.datasets
-小規模資料集
-datasets.load_*()
-大規模資料集
-datasets.fetch_*()
資料型別
datasets.base.bunch(字典格式)
data:特徵資料 二維陣列[n_samples * n_features]
target: 標籤陣列
descr: 資料描述
feature_names:特徵名(新聞資料,手寫數字,回歸資料集沒有)
target_names:標籤名
資料集介紹
分類資料集
鳶尾花資料集 sklearn.datasets.load_iris
新聞資料集 sklearn.datasets.fetch_20newsgroups
回歸資料集
波士頓房價資料集 sklearn.datasets.load_boston
糖尿病資料集 sklearn.datasets.load_diabetes
sklearn機器學習 PCA
pca使用的資訊量衡量指標,就是樣本方差,又稱可解釋性方差,方差越大,特徵所帶的資訊量越多 原理推導 class sklearn decomposition.pca n components none,copy true whiten false svd solver auto tol 0.0,it...
sklearn 機器學習庫
pipeline parameters steps 步驟 列表 list 被連線的 名稱,變換 元組 實現擬合 變換 的列表,按照它們被連線的順序,最後乙個物件是估計器 estimator memory 記憶體引數,instance of sklearn.external.joblib.memory...
機器學習資料集
ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...