#案例facebookdef facebook_demo():
data = pd.read_csv("
c:/users/26301/desktop/train.csv")
#縮小資料範圍
data = data.query("
x<2.5 & x>2 & y<1.5 & y>1")
#處理時間特徵
#轉換為年月日時分秒
time_value = pd.to_datetime(data["
time
"],unit="s"
) date =pd.datetimeindex(time_value)
#人工排除年和月兩個資訊
data[
"day
"] =date.day
data[
"weekday
"] =date.weekday
data[
"hour
"] =date.hour
#print(data)
#過濾掉簽到次數少的地方
#先統計每個地點被簽到的次數
place_count = data.groupby("
place_id
").count()[ "
row_id"]
place_count[place_count>3
] data_final=data[data["
place_id
"].isin(place_count[place_count>3
].index.values)]
# 篩選特徵值和目標值
x = data_final[["
x", "
y", "
accuracy
", "
day", "
weekday
", "
hour"]]
y = data_final["
place_id"]
# 資料集劃分
x_train, x_test, y_train, y_test =train_test_split(x, y)
# 3)特徵工程:標準化
transfer =standardscaler()
x_train =transfer.fit_transform(x_train)
x_test =transfer.transform(x_test)
# 4)knn演算法預估器
estimator =kneighborsclassifier()
# 加入網格搜尋與交叉驗證
# 引數準備
param_dict =
estimator = gridsearchcv(estimator, param_grid=param_dict, cv=3
) estimator.fit(x_train, y_train)
# 5)模型評估
# 方法1:直接比對真實值和**值
y_predict =estimator.predict(x_test)
print(
"y_predict:\n
", y_predict)
print(
"直接比對真實值和**值:\n
", y_test ==y_predict)
# 方法2:計算準確率
score =estimator.score(x_test, y_test)
print(
"準確率為:\n
", score)
# 最佳引數:best_params_
print(
"最佳引數:\n
", estimator.best_params_)
# 最佳結果:best_score_
print(
"最佳結果:\n
", estimator.best_score_)
# 最佳估計器:best_estimator_
print(
"最佳估計器:\n
", estimator.best_estimator_)
# 交叉驗證結果:cv_results_
print(
"交叉驗證結果:\n
資料處理最費工夫
周學習進度05
周學習進度04 第15周 0min 180min 100min 120min 110min 0min 510min 量 行 200 300 部落格量 篇 了解到的知識 團隊開發 分工作業的利與弊 一周的學習心得 進行團隊開發,才發現團隊開發並不簡單,每個團隊成員能力價值的體現,努力的程度對整個團隊起...
寒假學習進度05
日期 2020.01.21 部落格期 129 星期二還是來說說近幾天的任務 1 爬蟲新進展 可以通過特殊手段來獲取html內容 對於有特殊跳轉fucntion的頁面需要特殊手段來解決 2 大資料實驗 1 7全部完成 這7個實驗雖然已經全部完成了,但是我覺得自己掌握的不夠。老師給我們提的要求絕對不會是...
學習進度條05
星期日星期一 星期二星期三 星期四星期五 星期六所花時間 包括上課 19 00 20 40 9 00 9 45 14 00 15 50 16 14 17 57 15 30 17 30 19 00 21 00 18 10 21 43 16 30 18 00 19 11 23 40 14 17 17 5...