天池新人賽 資料探勘

2021-09-24 15:48:08 字數 1611 閱讀 7089

組別:wlh

奧林匹克百公尺跑資料**-python

程式設計是基於python的環境進行,可以在環境中構造資料模型

#畫出建立的方程模型影象和散點圖的影象,進行對比

x_test = np.linspace(1896,2008,100)[:,none]#在文件中讀取x的值

f_test = w0+w1*x_test#**之後的t值由得到的公式計算得出

plt.plot(x_test,f_test,『k-』,linewidth=3)#畫**直線,其中linewidth為線寬

plt.plot(x,t,』.r』)#畫原始資料分布

plt.xlabel(『olympic year』)#橫軸

plt.ylabel(『winning time (s)』)#縱軸

#由公式**2023年百公尺成績

x_pre=2020

f_pre = w0+w1x_pre

print(「2023年男子百公尺成績**值為:」,f_pre)

maxorder = 5

x = np.ones_like(x)

x_test = np.ones_like(x_test) #np.ones_like 所有元素用1代替

for i in range(1,maxorder+1):

x = np.hstack((x,xi)) #hstack 按列歸結

x_test = np.hstack((x_test,x_testi))

#高階模型

lamb = 0.01#懲罰係數

w = np.linalg.solve(np.dot(x.t,x) + x.sizelamb*np.identity(maxorder+1),np.dot(x.t,t))

#呼叫linalg模組的solve模組對方程求解,dot()求矩陣積

#np.linalg.solve求線性函式 ,x.size是n,identity單位矩陣

f_test = np.dot(x_test,w)

plt.plot(x_test,f_test,『k-』,linewidth=3)

plt.plot(x,t,』.r』)

print(w)#w為向量所以輸出也是乙個向量值

y = w[0]+w[1]*x+w[2]*x2+w[3]*x3+w[4]*x4+w[5]*x5#此時的y是個向量也即是乙個列表,下面可以用y[0]取出

print(「2020百公尺**成績為:」,y[0])

得出結果為:2020百公尺**成績為: 9.31949390903901

天池新人實戰賽之 離線賽 嘗試(四)

之前的特徵值有10幾個,有點少了。增加特徵值到40多個。特徵選取參考 使用pyspark.ml.classification import gbtclassifier 裡的模型。幾個引數解釋 maxiter 迭代次數 maxdepth 樹的最大深度 stepsize 每次迭代優化步長 學習速率 se...

從零開始天池新人離線賽 資料預處理

作為乙個資料探勘和python程式設計的雙面小白,從零就真的是從一張白紙開始了。今天,首先學習怎麼將阿里給我們的csv檔案匯入到python中 import csv itemcsv file d test item.csv rb r1 csv.reader itemcsv 到這步為止,初步將該ite...

天池新人賽 構造次日購買特徵

構造次日購買特徵 導入庫檔案 print 構造次日購買特徵 import pandas import numpy from pandas import read csv from pandas import series 讀取並設定資料表 df read csv d sample.csv low m...