一般經驗來看,二手車的**受影響最大的應該是車的品牌,行駛公里數,汽車註冊時間,和汽車損壞程度。因此,特徵選擇上可以結合此類經驗。此賽題是典型的回歸問題,可以採用boosting,stacking等整合方法,非線性回歸,深度融合等方法,關鍵在於資料特徵分析(是否高度相關,有無缺失值),特徵選擇,異常值處理,缺失值處理,以及思考如何構建準確的模型並優化引數,對於外推性上效能如何評價。
用python分析150000條資料,運用了資料匯入,資料簡要分析,資料統計資訊瀏覽
資料匯入:運用pandas
train_data = pd.read_csv(
'datalab/used_car_train_20200313.csv'
, sep=
' ');
資料簡要分析:通過 .info() 簡要可以看到對應一些資料列名,以及nan缺失資訊
train_data.info(
)
得到dtypes: float64(20), int64(10), object(1)
testa_data.info(
)
得到dtypes: float64(20), int64(9), object(1)
資料統計資訊瀏覽:通過 .describe() 可以檢視數值特徵列的一些統計資訊
得到資料的count個數,mean,min,max
疑問:25%,50%,75%不知道什麼意思,類似於中位數的意思?且中間省略號的資料如何讓看到?
2018 09 11 二手車交易平台系統
個人部落格位址 github位址 隨著國家經濟飛速發展,國民生活水平的不斷提高,人們對於生活質量有了更高的需求,汽車對於乙個家庭來說可以提供更多生活上的便利,提高生活的水平,所以中國汽車保有量逐年增加,有大幅度增長.隨之而來的是汽車產業的覺醒.基於此需求,本平台系統將依託於網際網路搭建乙個o2o 即...
天池 Datawhale二手車新手賽 Task03
特徵工程應當結合模型來做,這看起來似乎是一句廢話,但與一些參賽的小夥伴討論過後,發現很多人都沒有認識到這一點。或者說只是表面上知道這一點,卻並沒有很好地在建模中踐行。我覺得這裡有乙個原因,就是很多同學在做data mining的時候,只是調包,然後頂多調一下超引數,只能從結果來判斷引數好壞,並不知道...
三部門 開展二手車異地交易登記推廣
無數二手車商呼籲良久的政策終於來了,二手車異地交易登記 新規即將上線。近日,商務部消費促進司發布通知稱,自2021年9月1日起開展小型非營運二手車異地交易登記第一批推廣應用,推廣應用城市共計218個。通知全文如下 為貫徹落實 推進政務服務跨省通辦 部程式設計客棧署要求,加快推行小型非營運二手車交易登...