Kaggle 機器學習 例項3 house

2021-09-11 15:23:25 字數 1432 閱讀 7671

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

pd.set_option(『display.max_columns』, none)

pd.set_option(『display.max_rows』, none)

plt.rcparams[『font.sans-serif』]=[『simhei』] #用來正常顯示中文標籤

plt.rcparams[『axes.unicode_minus』]=false #用來正常顯示負號

train_df = pd.read_csv(「c:/users/13369/desktop/kaggle/kaggle/house price/input/train.csv」, index_col=0)

test_df = pd.read_csv(「c:/users/13369/desktop/kaggle/kaggle/house price/input/test.csv」, index_col=0)

#index_col:將第一列變為索引

print(train_df.head())

print(train_df.shape)

prices = pd.dataframe()

「」「可見,label本身並不平滑。為了我們分類器的學習更加準確,我們會首先把label給「平滑化」(正態化)

這一步大部分同學會miss掉,導致自己的結果總是達不到一定標準。

這裡我們使用最有逼格的log1p, 也就是 log(x+1),避免了復值的問題。

記住喲,如果我們這裡把資料都給平滑化了,那麼最後算結果的時候,要記得把**到的平滑資料給變回去。

按照「怎麼來的怎麼去」原則,log1p()就需要expm1(); 同理,log()就需要exp(), … etc」""

prices.hist()

y_train = np.log1p(train_df.pop(「saleprice」))

all_df = pd.concat((train_df, test_df), axis=0)

#將mssubclass裡面的數值型轉換為字元型,為了方便後續處理

all_df[「mssubclass」] = all_df[「mssubclass」].astype(str)

print(all_df[「mssubclass」].value_counts())#values_counts:用於計算每個字元出現大的次數

#接下來就是常用得到one_hot處理

all_dummy_df = pd.get_dummies(all_df)

#然後做資料缺失部分

#先看看哪些資料缺失了

mean_cols = all_dummy_df.mean()

all_dummy_df = all_dummy_df.fillna(mean_cols)

Kaggle機器學習之建模必要流程

kaggle的機器學習教程中,概括了建模的幾個常識或者必要流程 1.清洗好資料,得到x和y。2.選擇合適的模型,面對未知的資料和業務需求可以先嘗試不同的模型。3.將樣本資料分為訓練資料和檢驗資料兩類,訓練資料帶入模型,引數可先從簡,檢驗資料進行模型檢驗。4.模型引數優化,以防欠擬合和過擬合。以下為對...

初識機器學習(一) Kaggle下的測試學習

新手上路,自然是橫衝直撞。雖然英語不咋樣,還是選擇在kaggle上面跟隨學習。在對python有一些基礎的了解後,便開始直接從比賽中磨練自己。點開kaggle裡learn提供的一些教程,跟隨教程邁出第一步。教程中提供了乙個關於墨爾本房價 的事例來輔助學習。假設你家裡要買房,目前某地正在建一些房子,手...

例項詳解機器學習

例項詳解機器學習如何解決問題 美團點評技術團隊 前言 隨著大資料時代的到來,機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界,機器學習都是乙個炙手可熱的方向,但是學術界和工業界對機器學習的研究各有側重,學術界側重於對機器學習理論的研究,工業界側重於如何用機器學習來解決實際問題。我們...