1. 對於特徵較多的df,進行資料預處理時需要對每個特徵變數進行相關處理,為了避免混亂,可以df.info()後將輸出複製到sublime,然後在sublime中針對每個特徵變數進行處理方式標註
# 非python**,只是為了展示在sublime中的效果
action_type 30697 non-null object
[get dummies]
combined_shot_type 30697 non-null object
[get dummies]
game_event_id 30697 non-null int64[
del]
game_id 30697 non-null int64[
del]
lat 30697 non-null float64[remain]
loc_x 30697 non-null int64[
del]
loc_y 30697 non-null int64[
del]
lon 30697 non-null float64[remain]
minutes_remaining 30697 non-null int64[process then del
]period 30697 non-null int64[remain]
playoffs 30697 non-null int64[remain]
season 30697 non-null object
[get dummies]
seconds_remaining 30697 non-null int64[process then del
]shot_distance 30697 non-null int64[remain]
shot_made_flag 25697 non-null float64[tag]
# 指該列為標籤列
shot_type 30697 non-null object
[get dummies]
shot_zone_area 30697 non-null object
[del
]shot_zone_basic 30697 non-null object
[del
]shot_zone_range 30697 non-null object
[del
]team_id 30697 non-null int64[
del]
team_name 30697 non-null object
[del
]game_date 30697 non-null object
[del
]matchup 30697 non-null object
[del
]opponent 30697 non-null object
[get dummies]
shot_id 30697 non-null int64[
del]
2. 對於object型別的資料,通常可以考慮get dummies,轉換成數值型資料
3. 對於一些單位不同,但是衡量同一指標的特徵變數,可以通過單位換算化成同單位進行合併
4.名稱、id類特徵一般直接刪除
5. 對資料進行預處理後,最好將處理好的資料重新另存,保留原始資料。
C 經驗總結
1.標準庫的使用過程中,自己一定要注意,不能使用迭代器保留,因為新的stl中,加入了迭代器新的檢測機制,就是為了怕使用者使用的過程中自己將迭代器有意無意的引用了不存在的物件,因此這就要求我們的迭代器物件一定要在訪問的物件之前進行析購,否則你的程式將出錯。這個是c v8.0 中ms 加入新的安全機制,...
面試經驗總結
我從事技術工作,這幾年的面試與被面試總結 先說我去被面試的經驗吧。回答清楚了2個問題,就能順利過關了。1。為什麼要離開上一家公司。2。公司為什麼要僱傭你。問第乙個問題的是hr 或老闆 呵呵 即使你技術過關,hr那裡沒有好的影響,結果是乙個字,難!如何回答呢?hr想推論出你在他的公司能呆多久。這個時候...
directshow filter經驗總結
以前一直做嵌入式,對directshow一點都不明白。所以第一步是進行 餓補。第一步是補vc,以前學過vc,但是好幾年不用了,有點生疏了。但是功底還不錯,在網上找了些例子練了幾天,感覺找回感覺了。我 認為既然是用vc 程式設計,c oop的概念一定要清晰,具備一定的源 閱讀能力。畢竟directsh...