英文原鏈結源鏈結
假設: x和y是線性相關的
則需要找到乙個關於x的線性函式來盡可能準確的**y。
y = a0+ a1x1
怎樣找到最合適的回歸線?
通過最小化**值和觀測值的均方差
導入庫、匯入資料集、檢查缺失資料、分離訓練集和測試集、特徵縮放
從sklearn.linear_model中匯入linearregression類。
通過linearregression生成乙個regressor物件
通過linearrgression和訓練集適配regressor
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_csv(
'studentscores.csv'
)x = dataset.iloc[:,
:1].values
y = dataset.iloc[:,
1].values
from sklearn.cross_validation import train_test_split
x_train, x_test, y_train, y_test = train_test_split( x, y, test_size=1/
4, random_state =0)
from sklearn.linear_model import linearregression
regressor = linearregression(
)regressor = regressor.fit(x_train, y_train)
y_pred = regressor.predict(x_test)
# scatter 點
plt.scatter(x_train , y_train, color =
'red'
)# plot 線?
plt.plot(x_train , regressor.predict(x_train)
, color =
'blue'
)plt.scatter(x_test , y_test, color =
'red'
)plt.plot(x_test , regressor.predict(x_test)
, color =
'blue'
)
機器學習 day2
歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...
機器學習基礎DAY2
1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...
機器學習學習筆記 day2
周志華 機器學習 學習筆記 最近開始學習機器學習,參考書籍西瓜書,做點筆記。第二章 模型評估與選擇 錯誤率 分類錯誤的樣本數佔樣本總數的比例,e a m。精度 分類正確的樣本數佔樣本總數的比例,精確度 1 錯誤率。過擬合 訓練樣本學的太好,導致泛化效能下降。欠擬合 訓練樣本學的不太好。測試集與訓練集...