線性回歸是資料探勘中的基礎演算法之一,從某種意義上來說,在學習函式的時候已經開始接觸線性回歸了,只不過那時候並沒有涉及到誤差項。線性回歸的思想其實就是解一組方程,得到回歸函式,不過在出現誤差項之後,方程的解法就存在了改變,一般使用最小二乘法進行計算。
sklearn對data mining的各類演算法已經有了較好的封裝,基本可以使用fit
、predict
、score
來訓練、評價模型,並使用模型進行**,乙個簡單的例子如下:
>>> from sklearn import linear_model
>>> clf = linear_model.linearregression()
>>> x = [[0,0],[1,1],[2,2]]
>>> y = [0,1,2]
>>> clf.fit(x,y)
>>> print(clf.coef_)
[ 0.5 0.5]
>>> print(clf.intercept_)
1.11022302463e-16
linearregression
已經實現了多元線性回歸模型,當然,也可以用來計算一元線性模型,通過使用list[list]傳遞資料就行。下面是linearregression
的具體說明。
例項化sklearn一直秉承著簡潔為美得思想設計著估計器,例項化的方式很簡單,使用clf = linearregression()
就可以完成,但是仍然推薦看一下幾個可能會用到的引數:
還有一些引數感覺不是太有用,就不再說明了,可以去官網文件中檢視。
回歸其實在上面的例子中已經使用了fit
進行回歸計算了,使用的方法也是相當的簡單。
方程linearregression
將方程分為兩個部分存放,coef_
存放回歸係數,intercept_
則存放截距,因此要檢視方程,就是檢視這兩個變數的取值。
其實,多項式就是多元回歸的乙個變種,只不過是原來需要傳入的是x向量,而多項式則只要乙個x值就行。通過將x擴充套件為指定階數的向量,就可以使用linearregression
進行回歸了。sklearn已經提供了擴充套件的方法——sklearn.preprocessing.polynomialfeatures
。利用這個類可以輕鬆的將x擴充套件為x向量,下面是它的使用方法:
>>> from sklearn.preprocessing import polynomialfeatures
>>> x_train = [[1],[2],[3],[4]]
>>> quadratic_featurizer = polynomialfeatures(degree=2)
>>> x_train_quadratic = quadratic_featurizer.fit_transform(x_train)
>>> print(x_train_quadratic)
[[ 1 1 1]
[ 1 2 4]
[ 1 3 9]
[ 1 4 16]]
經過以上處理,就可以使用linearregression
進行回歸計算了。 sklearn學習筆記之開始
自2007年發布以來,scikit learn已經成為python重要的機器學習庫了。scikit learn簡稱sklearn,支援包括分類 回歸 降維和聚類四大機器學習演算法。還包含了特徵提取 資料處理和模型評估三大模組。sklearn是scipy的擴充套件,建立在numpy和matplotli...
sklearn學習筆記之preprocessing
官方文件位址 這個模組的主要內容是資料的預處理 binarizersklearn.preprocessing.binarizer threshold 0.0,copy true 作用 將資料進行二值化,若是特徵值 feature value 大於閾值 threshold 則將特徵值賦值為1否則為0 ...
sklearn學習筆記之嶺回歸
嶺回歸是一種專用於共線性資料分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分資訊 降低精度為代價獲得回歸係數更為符合實際 更可靠的回歸方法,對病態資料的擬合要強於最小二乘法。乙個簡單的例子 from sklearn.linear model impor...