機器學習一般的資料集會劃分為兩個部分:
訓練資料:用於訓練,構建模型
測試資料:在模型檢驗時使用,用於評估模型是否有效
訓練集與測試集佔比一般是(0.8,0.2),(0.7,0.3),(0.75,0.25),其中最後一種用的最多
以鳶尾花資料集為例:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li= load_iris(
)print(li.data)
print(li.target)
x_train,x_test,y_train,y_test = train_test_split(li.data,li.target,test_size=0.25)
print(
"訓練集特徵值和目標值:",x_train,y_train)
print(
"測試集特徵值和目標值:",x_test,y_test)
轉換器與預估器:
轉換器(transformer):
fit_transform():輸入資料直接轉換
fit():輸入資料,但是不做事情,計算平均值方差等等
transform():進行資料的轉換
注意:呼叫fit_transform時(對於文件建立分類詞頻矩陣,不能同時呼叫)
在sklearn中,估計器(estimator)是乙個重要的角色,分類器和回歸器都屬於estimator,是一類實現了演算法的api
1、用於分類的估計器:
sklearn.neighbors k-近鄰演算法
sklearn.*****_bayes 貝葉斯
sklearn.linear_model.logisticregression 邏輯回歸
2、用於回歸的估計器:
sklearn.linear_model.linearregression 線性回歸
sklearn.linear_model.ridge 嶺回歸
Python基礎學習筆記 Day 4
目錄 1 函式的基本使用 1 1 函式簡介與功能 1 2 函式的定義 1 3 函式的使用 2 函式的引數傳遞 2.1 可選引數傳遞 2.2 引數名稱傳遞 2.3 函式的返回值 3 變數作用域 3.1 區域性變數 3.2 區域性變數 4 復用 def 函式名 引數列表 函式體 return 返回值列表...
程式設計學習DAY4
鏈結檔案 link file 分為軟鏈結和硬鏈結,軟鏈結也稱為符號鏈結,相當於windows系統中的快捷方式檔案,建立軟鏈結使用ln s。硬鏈結相當於是檔案的多個副本,但它們的資料內容會保持實時同步,使用ln命令建立。檔名萬用字元 和?匹配0個或者多個任意字元,匹配1個任意字元 重點 對於普通檔案而...
前端學習Day4
一.css樣式表的權重 1.比喻 a.在公司 組長告訴你 本週加班7天。在公司 老闆告訴你 本週放假7天。有衝突b.在家 爺爺告訴你 抓緊娶媳婦 在家 爸爸告訴你 抓緊掙錢 有衝突c.老闆說 後天你休息 組長說 明天你工作 沒有衝突 2.樣式表的權重關係 a.內聯樣式表的權重最大。b.內部和外部樣式...