資料探勘第四周週報

2021-10-24 22:15:38 字數 744 閱讀 9915

得到了不是0.5的結果,說明神經網路的作用還是有的,但是在經過對於迭代次數的改變和訓練集的改變以後,還是沒有能優化到乙個更好的結果,於是乎我在考慮是不是應該回過頭對特徵工程進行進一步的處理,

這一周的後幾天我都是在處理資料集的特徵,在知乎和谷歌的幫助下,我對很多的降維方法進行嘗試,有什麼低方差過濾、預設值刪除、高相關過濾、pca降維等方法,

traindata[numerical_fea] = traindata[numerical_fea].fillna(traindata[numerical_fea].median())

testadata[numerical_fea] = testadata[numerical_fea].fillna(testadata[numerical_fea].median())

mm = minmaxscaler()

data = mm.fit_transform(data)

pca = pca(n_components = 10,copy=true)

data = pca.fit_transform(data)

在結合在 「零基礎入門金融風控 task3 特徵工程」 這個鏈結裡面的內容,對資料集進行特徵處理,填充nan預設值、分箱、字串對映到數字等,對資料集進行處理。

最後遇到的問題就是有資料集降維處理的方法大多比較複雜,不知道如何挑選,只能慢慢嘗試,然後就是還有在考慮是不是考研多用幾種分類方法進行學習投票,在遇到計算運算太慢的時候如何處理等都是需要慢慢嘗試的

第四周週報

一,上週工作總結 二,本週學習收穫 includeint main void str是乙個字串陣列 0代表乙個字元,要注意 p指向了str的第乙個字元,p 5則是指向了第6個字元 也就是 e 然後printf s p 5 就是從p 5指向的字元開始輸出,一直到遇到 0 為止,所以最後的輸出是 ef ...

資料探勘第二週週報

由於我們得到的資料集是經過處理的比較規整的資料,所以上面的步驟可以簡單一下 1,匯入標準庫 importing the libraries import numpy as np import pandas as pd import matplotlib.pyplot as plt data trai...

資料探勘第七周週報

def lgb model x train,y train,x test lgb train,lgb test cv model lgb,x train,y train,x test,lgb return lgb train,lgb test def xgb model x train,y trai...