目錄導包
資料和目標值
資料是隨機的
資料是按比列的
總結:train_test_split,kfold,stratifiedkfold左右都是將資料拆分。 屬性
刪除無用資料
資料結構
演算法進行
影響薪水的因素有很多,比如教育背景,年齡,種族,工作單位等等,可以用knn進行分類。
import numpy as np
import pandas as pd
from sklearn.neighbors import kneighborsclassifier
from sklearn.model_selection import train_test_split
# cv int 6 資料分分成6份
from sklearn.model_selection import cross_val_score,gridsearchcv
# kfold、stratifiedkfold將資料分成多少份
# train,test是索引,只要有索引可以獲取資料
# 分成4份,每乙份資料特徵,資料樣本比例和原來一樣的
np.argwhere(u == 'local-gov')[0,0]#二維的
def convert(x):
return np.argwhere(u == x)[0,0]#獲取索引
將剩餘屬性轉化為數值
演算法計算
knn = kneighborsclassifier()
kfold = kfold(10)#把資料分成10份
knn = kneighborsclassifier()
accuracy = 0
for train,test in kfold.split(x,y):
knn.fit(x.loc[train],y[train])
acc = knn.score(x.loc[test],y[test])
accuracy += acc/10
print(accuracy)#平均準確率
演算法速度影響因素的本質 一
演算法速度影響因素的本質 表面上,演算法速度的影響因素繁多,但事實上,如果我們窮根究底的話,也會在這個看似繁亂無序的世界裡找出一些本質的東西。先考慮這麼乙個問題 如果b地在a地正東方,乙個人要從a地去b地,那他可以有什麼方法來縮短所花的時間?第一當然是交通工具。選擇汽車和步行自然不可能是相同的效果,...
KNN 演算法的例項應用
為了提高給 helen 女士匹配約會物件的成功率,收集了各位男士的以下三種資訊 每年的飛行里程數 玩遊戲所耗時間百分比 每週消費的冰淇淋公升數 約會資料 datingtestset.txt 先看一下資料集的內容 這裡擷取了三行,前三列分別是每年的飛行里程數 玩遊戲所耗時間百分比和每週消費的冰淇淋公升...
KNN演算法的應用示例
knn演算法是資料分析中的一種常用方法。本文對knn演算法的原理進行簡要說明,並給出具體的應用示例。knn演算法根據樣本之間的距離,進行類別的劃分。樣本間的距離可以使用歐氏距離 d i 1n xi yi 2 d sqrt n x i y i 2 d i 1 n x i y i 2 進行計算時,需要首...