Spark MLlib之保序回歸(一)

2021-09-24 06:23:09 字數 1282 閱讀 2166

當前it行業虛擬化比較流行,使用這種方式,找到合適的判斷引數,就可以使用此演算法使資源得到最大程度的合理利用。

1.數學定義

保序回歸是回歸演算法的一種,基本思想是:給定乙個有限的實數集合,訓練乙個模型來最小化下列方程:

並且滿足下列約束條件:

2.演算法過程說明

從該序列的首元素往後觀察,一旦出現亂序現象停止該輪觀察,從該亂序元素開始逐個吸收元素組成乙個序列,直到該序列所有元素的平均值小於或等於下乙個待吸收的元素。

舉例:原始序列:<9, 10, 14>

結果序列:<9, 10, 14>

分析:從9往後觀察,到最後的元素14都未發現亂序情況,不用處理。

原始序列:<9, 14, 10>

結果序列:<9, 12, 12>

分析:從9往後觀察,觀察到14時發生亂序(14>10),停止該輪觀察轉入吸收元素處理,吸收元素10後子串行為<14, 10>,取該序列所有元素的平均值得12,故用序列<12, 12>替代<14, 10>。吸收10後已經到了最後的元素,處理操作完成。

原始序列:<14, 9, 10, 15>

結果序列:<11, 11, 11, 15>

分析:從14往後觀察,觀察到9時發生亂序(14>9),停止該輪觀察轉入吸收元素處理,吸收元素9後子串行為<14,9>。求該序列所有元素的平均值得12.5,由於12.5大於下個待吸收的元素10,所以再吸收10,得序列<14, 9, 10>。求該序列所有元素的平均值得11,由於11小於下個待吸收的元素15,所以停止吸收操作,用序列<11, 11, 11>替代<14, 9, 10>。

3.舉例說明下面實驗的原理

以某種藥物的使用量為例子:

假設藥物使用量為陣列x=0,1,2,3,4….99,病人對藥物的反應量為y=y1,y2,y3…..y99 ,而由於個體的原因,y不是乙個單調函式(即:存在波動),如果我們按照藥物反應排序,對應的x就會成為亂序,失去了研究的意義。而我們的研究的目的是為了觀察隨著藥物使用量的遞增,病人的平均反應狀況。在這種情況下,使用保序回歸,即不改變x的排列順序,又求的y的平均值狀況。如下圖所示:

從圖中可以看出,最長的綠線x的取值約是30到60,在這個區間內,y的平均值一樣,那麼從經濟及病人抗藥性等因素考慮,使用藥量為30個單位是最理想的。

當前it行業虛擬化比較流行,使用這種方式,找到合適的判斷引數,就可以使用此演算法使資源得到最大程度的合理利用。

Spark mllib 保序回歸

從該序列的首元素往後觀察,一旦出現亂序現象停止該輪觀察,從該亂序元素開始逐個吸收元素組成乙個序列,直到該序列所有元素的平均值小於或等於下乙個待吸收的元素。舉例 原始序列 9,10,14 結果序列 9,10,14 分析 從9往後觀察,到最後的元素14都未發現亂序情況,不用處理。原始序列 9,14,10...

保序回歸Isotonic Regression

問題描述 給定乙個無序數字序列y,通過修改每個元素的值得到乙個非遞減序列 y 問如何使y和 y 誤差 該處取平方差 最小?保序回歸法 從該序列y的首元素往後觀察,一旦出現亂序現象停止該輪觀察,從該亂序元素開始逐個吸收緊跟在後面的元素組成乙個子串行sub y,直到子串行sub y所有元素的平均值小於或...

保序回歸問題

目錄特殊情形下的演算法 設 r 是集合 s 上的乙個二元關係,若 r 滿足 則稱 r 為 s 上的非嚴格偏序關係,記做 le 給定正整數 p 一張點集為 v 邊集 e e m 的有向無環圖 g 及代價函式 y,w forall i,w i 0 如果在 g 中有 v i 到 v j 的有向路徑,那麼就...