一.機器學習演算法分類:1.監督學習:目標值:類別(離散型資料)------分類問題(例如圖1對貓狗分類)
分類演算法:k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸
目標值:連續性資料(房屋**等)------回歸問題(例如圖2對房屋****)
回歸演算法:線性回歸、嶺回歸
2.無監督學習:
目標值:無------無監督學習(例如圖3,對一群人進行分類但無目標值)
聚類演算法:k-means
圖1
圖2
圖3總結:
二.sklearn資料集使用常用框架:
機器學習框架:sklearn
深度學習框架:tensorflow、pytorch、caffe2、theano、chainer
常用的公共資料集:sklearn、kaggle、uci
1.呼叫sklearn庫中的資料集
可用datasets.load_***()he datasets.fetch_***(dataset=none)載入
返回值:
返回值型別是datasets.base.bunch(字典格式),含五個鍵值對:
data:特徵資料陣列
target:標籤陣列
descr:資料描述
feature_names:特徵的名字(新聞資料、手寫數字、回歸資料集沒有)
target_names:標籤名
from sklearn.datasets import load_iris
defdatasets_demo()
: iris=load_iris(
)print
('鳶尾花資料集:\n'
,iris)
print
('檢視資料集描述:\n'
, iris[
'descr'])
print
('檢視特徵值的名字:\n'
, iris.feature_names)
print
('檢視特徵值:\n'
2.資料集劃分
使用sklearn.model_selection.train_test_split(arrays,*option)
:#獲取資料集
iris=load_iris(
)print
('鳶尾花資料集:\n'
,iris)
print
('檢視資料集描述:\n'
, iris[
'descr'])
print
('檢視特徵值的名字:\n'
, iris.feature_names)
print
('檢視特徵值:\n'
, iris.data, iris.data.shape)
#資料集劃分
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=
0.2,random_state=22)
print
('訓練集的特徵值:\n'
機器學習分類演算法(一)k NN分類演算法
k kk nn分類器是最簡單的機器學習分類演算法之一,它的基本思想是 從訓練樣本集中找出與測試樣本 距離 最近的k個樣本作為此測試樣本的 鄰居 然後根據這k個樣本的類別基於一定規則進行投票表決,最高的決定為測試樣本的 類別。用乙個詞來說就是 近朱者赤近墨者黑 由以上所述可以得知,k近鄰分類演算法主要...
機器學習(一) 快速入門線性分類器
x x1,x2,xn 代表n維特徵列向量,w w1,w2,wn 代表對應的權重 係數 coeffient 同時為了避免其過座標原點這種硬性假設,增加乙個截距 intercept b。f取值範圍分布在整個實數域中.線性其實就是一系列一次特徵的線性組合,在二維空間中是一條直線,在三維空間中是乙個平面。要...
機器學習分類演算法 一 余弦相似度
數學原理 向量 空間中有兩個點原點o和點a,oa o指向a 就是乙個向量,向量是有長度有方向的。點積 內積 oi ai 向量長度 a sqrt sqrt a a 余弦公式 cos a b a b ai bi sqrt a a sqrt b b 應用舉例 文字新聞分類 原理 將爬出來的文章用jieba...