KNN演算法應用 影響薪水的因素

2021-10-07 05:27:52 字數 3250 閱讀 4154

目錄導包

資料和目標值

資料是隨機的

資料是按比列的

總結:train_test_split,kfold,stratifiedkfold左右都是將資料拆分。 屬性

刪除無用資料

資料結構

演算法進行

影響薪水的因素有很多,比如教育背景,年齡,種族,工作單位等等,可以用knn進行分類。

import numpy as np

import pandas as pd

from sklearn.neighbors import kneighborsclassifier

from sklearn.model_selection import train_test_split

# cv int 6 資料分分成6份

from sklearn.model_selection import cross_val_score,gridsearchcv

# kfold、stratifiedkfold將資料分成多少份

# train,test是索引,只要有索引可以獲取資料

# 分成4份,每乙份資料特徵,資料樣本比例和原來一樣的

np.argwhere(u == 'local-gov')[0,0]#二維的

def convert(x):

return np.argwhere(u == x)[0,0]#獲取索引

將剩餘屬性轉化為數值

演算法計算

knn = kneighborsclassifier()

kfold = kfold(10)#把資料分成10份

knn = kneighborsclassifier()

accuracy = 0

for train,test in kfold.split(x,y):

knn.fit(x.loc[train],y[train])

acc = knn.score(x.loc[test],y[test])

accuracy += acc/10

print(accuracy)#平均準確率

演算法速度影響因素的本質 一

演算法速度影響因素的本質 表面上,演算法速度的影響因素繁多,但事實上,如果我們窮根究底的話,也會在這個看似繁亂無序的世界裡找出一些本質的東西。先考慮這麼乙個問題 如果b地在a地正東方,乙個人要從a地去b地,那他可以有什麼方法來縮短所花的時間?第一當然是交通工具。選擇汽車和步行自然不可能是相同的效果,...

KNN 演算法的例項應用

為了提高給 helen 女士匹配約會物件的成功率,收集了各位男士的以下三種資訊 每年的飛行里程數 玩遊戲所耗時間百分比 每週消費的冰淇淋公升數 約會資料 datingtestset.txt 先看一下資料集的內容 這裡擷取了三行,前三列分別是每年的飛行里程數 玩遊戲所耗時間百分比和每週消費的冰淇淋公升...

KNN演算法的應用示例

knn演算法是資料分析中的一種常用方法。本文對knn演算法的原理進行簡要說明,並給出具體的應用示例。knn演算法根據樣本之間的距離,進行類別的劃分。樣本間的距離可以使用歐氏距離 d i 1n xi yi 2 d sqrt n x i y i 2 d i 1 n x i y i 2 進行計算時,需要首...