python機器學習基礎教程(一)
k近鄰演算法scikit-learn中有很多可用的分類演算法。這裡我們用的是k近鄰分類器,這是乙個很容易理解的演算法。核心思想是:要對乙個新的資料點作出**,演算法會在訓練集中尋找與這個新資料點距離最近的資料點,然後將找到的資料點的標籤賦值給這個新資料點。
k近鄰演算法中k的含義是,我們可以考慮訓練期中與資料點最近的任意k個近鄰,比如說距離最近的3個或5個鄰居,而不是只考慮最近的那乙個,然後我們可以用這些鄰居中資料數量最多的類別作出**,後面我會進一步介紹這個演算法的細節,現在我們只考慮乙個鄰居的情況。
from sklearn.neighbors import kneighborsclassifier
knn=kneighborsclassifier(n_neighbors=
1)
knn物件對演算法進行了封裝,既包括用訓練資料構建模型的演算法,也包括對新資料點進行**演算法。他還包括演算法從訓練資料中提取的資訊,對於kneighborsclassifier來說裡面只儲存了訓練集。
想要基於訓練集來構建模型,需要呼叫knn物件fit方法,輸入引數為x_train和y_train,二者都是numpy陣列,前者包含訓練集後者包含訓練集標籤。
現在我們就可以用這個模型對新資料進行**了。想象一下假如我們在野外發現了一朵鶯尾花,花萼長5cm寬2.9cm,花瓣長1cm寬0.2cm,這朵鶯尾花屬於哪個品種?我們可以將這些資料放入numpy陣列中再次計算形狀,陣列形狀為樣本數(1)乘以特徵數(4):
這裡需要用到之前的測試集,這些資料沒有用來構建模型,但我們知道測試集每朵花屬於哪個品種。
因此,我們可以對測試集每朵花進行**,然後將**結果對比標籤,通過計算精度來評估模型的優劣。精度就是品種**正確的話所佔的比例。
#模型**
Python機器學習基礎(二)
什麼是監督學習?當我們希望通過某些輸入來 對應的輸出,這時候就需要先使用已經存在的輸入 輸出資料對來訓練模型,這些資料對中,每乙個輸入都乙個已知的輸出,我們就是讓機器去學習這其中的規律 基本介紹 監督學習問題主要分為兩種 分類與回歸 分類問題 類別標籤。比如在 一 中實現的鳶尾花分類 回歸問題 乙個...
機器學習 二 機器學習基礎
機器學習基礎概念 關於資料 監督學習 機器學習的基本任務,具體可以做什麼?結果是乙個連續數字的值,而非乙個類別 回歸任務可以劃分成分類任務。給機器的訓練資料擁有 標記 或者 答案 例如 1.影象已經擁有了標定資訊 2.銀行已經積累了一定的客戶資訊和他們信用卡的信用情況 3.醫院已經積累了一定的病人資...
Python 機器學習基礎
pandas matplotlib reference numpy 的資料結構 numpy的基本操作 當進行 和 等邏輯判斷時,numpy會對array中所有元素進行判斷。import numpy vector numpy.array 5,10,6,7 vector 10 output array ...