賽題概況
比賽要求參賽選手根據給定的資料集,建立模型,二手汽車的交易**。
來自 ebay kleinanzeigen 報廢的二手車,數量超過 370,000,包含 20 列變數資訊,為了保證 比賽的公平性,將 會從中抽取 10 萬條作為訓練集,5 萬條作為測試集 a,5 萬條作為測試集 b。同時會對名稱、車輛型別、變速 箱、model、燃油型別、品牌、公里數、**等資訊進行脫敏。
賽題資料
saleid
交易id,唯一編碼
name
汽車交易名稱,已脫敏
regdate
汽車註冊日期,例如20160101,2023年01月01日
model
車型編碼,已脫敏
brand
汽車品牌,已脫敏
bodytype
車身型別:豪華轎車:0,微型車:1,廂型車:2,大巴車:3,敞篷車:4,雙門汽車:5,商務車:6,攪拌車:7
fueltype
燃油型別:汽油:0,柴油:1,液化石油氣:2,天然氣:3,混合動力:4,其他:5,電動:6
gearbox
變速箱:手動:0,自動:1
power
發動機功率:範圍 [ 0, 600 ]
kilometer
汽車已行駛公里,單位萬km
notrepaireddamage
汽車有尚未修復的損壞:是:0,否:1
regioncode
地區編碼,已脫敏
seller
銷售方:個體:0,非個體:1
offertype
**型別:提供:0,請求:1
creatdate
汽車上線時間,即開始售賣時間
price
二手車交易**(**目標)
v系列特徵
匿名特徵,包含v0-14在內15個匿名特徵
評測標準
mae:均方誤差
載入訓練和測試資料並對其進行分析,可分為以下部分
資料總覽
使用shape(),head(),describe(),info()等函式對其進行整體分析,包括檢視資料維度,每列資料的缺失值和型別,和標準差,平均值等統計資訊。
判斷資料缺失
使用isnull()和sum並進行繪圖可以初步判斷出缺失值數量,之後可使用missingno庫的matrix視覺化缺失值的分布。這裡要注意的一點是缺失值並不一定是nan,比如notrepaireddamage中使用了『-』表示了缺失,使用replace用nan對其進行替換。
另外對於資料分布嚴重傾斜的列進行刪除,如seler和offertype
檢視**值的分布
使用seaborn了解**值的總體分布情況,使用kurt()和skew()檢視其峰度和偏度,之後對其進行頻數統計。本次實驗**符合無界詹森分布。
特徵分類判別
將特徵分為類別特徵和數字特徵,可以通過資料型別是num或者obj來判別。但是本次中資料已經進行了處理,需要通過先驗知識對其進行分類,之後分別進行處理。
對於類別特徵
用pandas_profiling生成資料報告
非常好用的乙個功能,基本包含了上面所有的分析,缺點就是生成時間有些長,超到3.7的1400用了大概50分鐘
資料的探索性分析
1.簡單統計量分析 極差,最大值,最小值 2.3 原則 如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。如果資料不服從正態分佈,也可以用標準差作為 來進行倍數描述 3.箱型圖分析 在箱型圖中,異常值被定義為小於ql 1.5iqr或大於qu 1.5iqr...
資料探勘 Task2 資料的探索性分析(EDA)
資料探勘 task2 資料的探索性分析 eda 其他都是我平時常用的庫,missingno第一次用,主要是用於直觀顯示資料集中缺失值的分布以及相關性的。import pandas as pd import matplotlib import matplotlib.pyplot as plt impo...
EDA 探索性資料分析
引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...