機器學習開發流程:
監督學習(英語:supervised learning),可以由輸入資料中學到或建立乙個模型,並依此模式推測新的結果。輸入資料是由輸入特徵值和目標值所組成。函式的輸出可以是乙個連續的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。即特徵值+目標值。如:
分類:k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網路 (目標值離散型)
回歸:線性回歸、嶺回歸(目標值連續)
標註:隱馬爾可夫模型
無監督學習(英語:supervised learning),可以由輸入資料中學到或建立乙個模型,並依此模式推測新的結果。輸入資料是由輸入特徵值所組成。即特徵值。如:
聚類 k-means
機器學習一般的資料集會劃分為兩個部分:
訓練資料:用於訓練,構建模型
測試資料:在模型檢驗時使用,用於評估模型是否有效
sklearn資料集劃分api
sklearn.model_selection.train_test_split
scikit-learn自帶資料集api
sklearn.datasets
載入獲取流行資料集
datasets.load_*
()
獲取小規模資料集,資料報含在datasets裡
datasets.fetch_*
(data_home=
none
)
獲取資料集返回的型別
load*和fetch*返回的資料型別datasets.base.bunch(字典格式)
data:特徵資料陣列,是 [n_samples * n_features] 的二維 numpy.ndarray 陣列
target:標籤陣列,是 n_samples 的一維 numpy.ndarray 陣列
descr:資料描述
feature_names:特徵名,新聞資料,手寫數字、回歸資料集沒有
target_names:標籤名,回歸資料集沒有
資料集進行分割
sklearn.model_selection.train_test_split(
*arrays,
**options)
x 資料集的特徵值
y 資料集的標籤值
test_size 測試集的大小,一般為float
random_state 隨機數種子,不同的種子會造成不同的隨機
取樣結果。相同的種子取樣結果相同。
return 訓練集特徵值,測試集特徵值,訓練標籤,測試標籤
(預設隨機取)
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li = load_iris(
)print
("獲取特徵值"
)print
(li.data)
print()
print
("目標值"
)print
(li.target)
print()
# 訓練集 train x_train y_train 測試集:test_x test_y
x_train,x_test,y_train,y_test=train_test_split(li.data, li.target, test_size=
0.25
)# 輸出名稱不可以亂
print
("訓練集的特徵值和目標值"
,x_train,y_train)
print()
print
("測試集的特徵值和目標值"
,x_test,y_test)
注:呼叫fit_transform(對於文件建立分類詞頻矩陣,不能同時呼叫)等於呼叫fit 和transform
在訓練和測試時必須先用fit_transform(traindata),之後再transform(testdata)
如果直接transform(testdata),程式會報錯;如果fit_transfrom(traindata)後,使用fit_transform(testdata)而不是transform(testdata),那麼兩個結果不是在同乙個「標準」下的,具有明顯差異。(要避免這種情況)。
在sklearn中,估計器(estimator)是乙個重要的角色,是機器學習的演算法實現。分類器和回歸器都屬於estimator,是一類實現了演算法的api
1、用於分類的估計器:
sklearn.neighbors k-近鄰演算法
sklearn.*****_bayes 貝葉斯
sklearn.linear_model.logisticregression 邏輯回歸
2、用於回歸的估計器:
sklearn.linear_model.linearregression 線性回歸
sklearn.linear_model.ridge 嶺回歸
工作流程
機器學習基礎自學筆記2
1.1學習演算法 機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義 對於某類任務和效能度量p,乙個電腦程式被認為可以從經驗e中學習是指,通過經驗e改進後,它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本 example ...
機器學習基礎演算法梳理 2
1.3 邏輯回歸損失函式 1.4 優缺點 1.5 樣本不均衡解決方法 二 正則化與模型評估 2.2 評估指標 2.2.1 混淆矩陣 邏輯回歸於線性回歸實際上有很多相似之處,它們都屬於乙個族群,即廣義線性模型。這一模型中的形式基本差不多,基於模型中資料的特徵進行建模,所解決的問題均以資料為導向的連續或...
機器學習基礎DAY2
1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...