多元線性回歸是嘗試通過用乙個線性方程來適配觀測資料,這個線性方程是兩個以上的特徵和相應之間構建的乙個關係。多元線性回歸的實現步驟和簡單的線性回歸相似,只是在評價部分有所不同。
自變數和因變數的關係是線性
誤差項的方差必須等同
多元回歸假定殘差符合正態分佈
缺少多重共線性
在多元回歸模型中,當遇到資料集時非資料型別時,使用分數資料是乙個非常有效的方法。例如可使用1或0這樣的值來表示肯定或者否定型別
匯入相關庫
匯入資料集
檢查缺失資料
資料分類
編輯虛擬變數並注意避免虛擬變數陷阱
特徵縮放
#資料預處理
#導入庫
import pandas as pd
import numpy as np
#匯入資料集
dataset = pd.read_csv('50_startups.csv')
x = dataset.iloc[ : ,:-1].values
y = dataset.iloc[ : , 4].values
#將類別資料數位化
from sklearn.preprocessing import labelencoder,onehotencoder
labelencoder = labelencoder()
x[: , 3] = labelencoder.fit_transform(x[ : , 3])
onehotencoder = onehotencoder(categorical_features = [3])
x = onehotencoder.fit_transform(x).toarray()
#躲避虛擬變數陷阱
x = x[: , 1:]
#拆分資料集為訓練集合測試集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2,random_state = 0)
#第二步,在訓練集上訓練多元線性回歸模型
from sklearn.linear_model import linearregression
regressor = linearregression()
regressor.fit(x_train,y_train)
#在測試集上**結果
機器學習打卡 第三天
gradient descent 梯度下降 stochastic gradient descent 隨機梯度下降 batch gradient descent 批量梯度下降 mini batch gradient descent 小批量梯度下降 區別 隨機梯度下降 每次迭代使用一組樣本 批量梯度下降...
學習第三天
額,又是美好的一天!祝賀比利時奪得季軍!下面,還是先看資訊學 今天繼續看倍增。這道題是和倍增沾邊的題,額,其實就是兩邊floyd。但是思路還是可以借鑑的。這道的思路是,使用兩個陣列,乙個是f k u v 這個陣列表示節點u到節點v之間是否距離為2 k,如果是,則為1,否則為0.代表u和v之間是否1s...
學習第三天
等價類是建立在這種思想之上 即我們不可能進行窮舉測試,那麼我們就 必須對輸入進行分類,而這種分類是建立在我們知道計算機程式設計原理和 計算機處理單元的工作原理基礎之上的,程式是通過資料結構和演算法來實現 的,計算機是按照演算法來執行程式的,這種執行是穩定的,不會因為我們的 輸入而導致計算機處理不穩定...