Spark Mllib資料探勘入門四 回歸分析

2021-10-19 23:06:45 字數 1136 閱讀 9876

回歸分析(regression analysis)是一種用來確定兩種或兩種以上變數間相互依賴的定量關係的統計分析方法,運用十分廣泛。

如果在回歸分析中,只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。

如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多重線性回歸分析。

回歸分析是最常用的機器學習演算法之一。本文將向讀者介紹線性回歸的基本理論與mllib中使用的**演算法,以及為了防止過度擬合而進行的正則化處理,這些不僅僅是回歸演算法的核心,也是mllib的最核心部分。

1.隨機梯度下降演算法

mllib中使用的是較為經典的隨機梯度下降演算法,它充分利用了spark框架的迭代計算特性,通過不停地判斷和選擇當前目標下的最優路徑,從而能夠在最短路徑下達到最優的結果,繼而提高大資料的計算效率。

隨機梯度下降演算法最終被歸結為通過迭代計算特徵值從而求出最合適的值。θ求解的公式如下:θ=θ−α(f ( θ)−yi)xi

2.回歸的過擬合

如果測試資料過於側重某些具體的點,則會對整體的曲線形成構成很大的影響,從而影響到待測資料的測試精準度。這種對於測試資料過於接近而實際資料擬合程度不夠的現象稱為過擬合,而解決辦法就是對資料進行處理,而處理過程稱為回歸的正則化。

正則化使用較多的一般有兩種方法,lasso回歸(l1回歸)和嶺回歸(l2回歸)。

l1範數和l2範數相比較而言,l1能夠在步進係數α在一定值的情況下將回歸曲線的某些特定係數修正為0。而l1回歸由於其平方的處理方法從而使得回歸曲線獲得較高的計算精度。

3.mllib線性回歸

mllib回歸演算法中資料格式的要求,可以從回歸演算法的原始碼來分析:def train( input:rdd[labeledpoint],numiterations:int, stepsize:double):linearregressionmodel =

均方誤差(mean squared error, mse)是衡量「平均誤差」的一種較方便的方法,可以評價資料的變化程度。均方根誤差是均方誤差的算術平方根。

mllib計算框架中最核心的部分,即梯度下降演算法實際上機器學習的大多數演算法都是在使用迭代的情況下最大限度地逼近近似值,這也是學習演算法的基礎。

SPSS Modeler資料探勘 資料探勘概述

資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...

資料探勘 資料

對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...

資料探勘 關聯規則挖掘

關聯規則 association rule 是資料中所蘊含的一類重要規律。關聯規則挖掘的目標是在資料專案中找出所有的併發關係 cooccurrence relationships 這種關係也稱為關聯 association 關聯規則挖掘的經典應用是購物籃 market basket 關聯規則挖掘並沒...