R語言統計學習 1簡介

2022-08-15 07:48:16 字數 3944 閱讀 2778

統計學習是指一組用於理解資料和建模的工具集。這些工具可分為有監督或無監督。

1、監督學習:用於根據乙個或多個輸入**或估計輸出。常用於商業、醫學、天體物理學和公共政策等領域。

2、無監督學習:有輸入變數,但沒有輸出變數,可以從這些資料中學習潛在關係和資料結構。

以下簡單的用3個資料集來說明。

我們希望了解雇員的年齡、教育和年份對他的工資之間的聯絡。下圖是對這三個因素的乙個分析和統計。

綜上,對乙個人工資的最準確的**將通過結合他的年齡、教育程度和年份來得到。

工資資料報括**連續或定量的產出值。這通常被稱為回歸問題。然而,在某些情況下,我們可能希望**乙個非數值,即分類或定性輸出。 **市場資料的目的是利用過去5天指數的百分比變化來**某一天的指數是增加還是減少。在這裡,統計學習問題並不自動**數值。相反,它涉及**某一天的**表現是上公升還是**。這就是所謂的分類問題。乙個能夠準確**市場走向的模型將非常有用!

圖2的左圖顯示了在**指數前一天百分比變化的兩盒狀圖:乙個框線表示下一天市場**的648天,另乙個框線表示下一天市場**的602天。這兩個塊看起來幾乎完全相同,這表明,沒有乙個簡單的策略可以用昨天的標準普爾指數來**今天的收益。其餘的面板顯示的是今天前2天和3天百分比變化的方框圖,同樣地顯示過去和現在的回報之間幾乎沒有關聯。當然,這種模式的缺乏是可以預料的:在連續幾天的收益之間強相關性的情況下,人們可以採用簡單的交易策略來從市場獲得利潤。

有趣的是,資料中有一些微弱的趨勢暗示著,至少在這5年期間,大約60%的時間有可能正確地**市場的移動方向。

上圖採用二次判別分析模型擬合2001-2023年時間段對應的市場資料子集,並利用2023年資料******的概率。平均而言,在市場確實**的日子裡,**的**概率更高。基於這些結果,能夠正確**市場60%的運動方向。

前兩個應用程式用輸入和輸出變數來說明資料集。一類重要的問題涉及這樣的情況:我們只能觀察輸入變數,而沒有相應的輸出。例如,在營銷環境中,我們可能有許多當前或潛在客戶的人口統計資訊。我們可能希望通過根據觀察到的特徵對個人進行分組,從而了解哪些型別的客戶彼此相似。這就是所謂的聚類問題。與前面的示例不同,這裡我們不嘗試**輸出變數。

在nci60資料集,該資料集由64個癌細胞系的6830個基因表達測量組成。與**特定的輸出變數不同,我們更感興趣的是根據細胞系的基因表達測量來確定細胞系中是否存在群或簇。這是乙個很難解決的問題,部分原因是每個細胞系都有成千上萬的基因表達測量,這使得資料難以視覺化。

左圖通過只使用兩個數字(z1和z2)來表示64個細胞中的每乙個細胞資料,每個點表示乙個細胞,這裡顯示有四個組。這是資料的前兩個主要組成部分,它將每個單元格行的6830個表示式度量彙總為兩個數字或維度。雖然這種維度的減少可能導致一些資訊丟失,但現在可以直觀地檢查資料以獲取聚類的證據。決定聚類簇的數量通常是乙個困難的問題。但是左圖顯示了至少四組細胞系,我們用單獨的顏色表示。我們現在可以檢查每個簇中的細胞系在癌症型別上的相似性,以便更好地了解基因表達水平與癌症之間的關係。

右圖在顯示這個特定的資料集中,結果表明細胞系對應於14種不同型別的癌症。右圖和左圖相同,但14種癌症型別使用不同的彩色符號顯示。有明顯的證據表明,具有相同癌症型別的細胞株在這一二維表徵中傾向於彼此靠近。此外,儘管癌症資訊沒有用於生成左圖,但所獲得的聚類確實與在右圖中觀察到的某些實際癌症型別有些相似。這為我們的聚類分析的準確性提供了一些獨立的驗證。

儘管術語統計學習是相當新的,但許多構成該領域基礎的概念是很久以前發展起來的。在十九世紀初,勒讓德legendre和高斯gauss發表了關於最小二乘法的**,該方法實現了現在被稱為線性回歸的最早形式。該方法首次成功地應用於天文學問題。線性回歸用於**定量值,如個人工資。為了**患者的生存或死亡,或**的漲跌,fisher在2023年提出了線性判別分析(linear discriminant analysis)。在20世紀40年代,不同的作者提出了另一種方法,邏輯回歸。在20世紀70年代早期,nelder和wedderburn為一類統計學習方法創造了術語「廣義線性模型」,這類方法將線性回歸和邏輯回歸作為特殊情況包括在內。

到20世紀70年代末,已有更多的資料學習技術。然而,它們幾乎都是線性方法,因為擬合非線性關係在當時是不可行的。到20世紀80年代,計算技術終於得到了充分的改進,非線性方法不再是計算上的禁忌。20世紀80年代中期,布雷曼breiman、弗里德曼friedman、奧爾森olshen和斯通stone引入了分類和回歸樹,並率先證明了一種方法的詳細實際實現的能力,包括模型選擇的交叉驗證。2023年,黑斯迪和蒂比西拉尼為廣義線性模型的一類非線性擴充套件創造了廣義加性模型這一術語,並提供了乙個實用的軟體實現。

從那時起,在機器學習和其他學科的啟發下,統計學習已經成為統計學的乙個新的分支領域,其重點是有監督和無監督的建模和**。近年來,統計學習的進展以功能強大且相對使用者友好的軟體(如流行的、免費提供的r語言)的可用性不斷提高為標誌。這有可能繼續將該領域從統計學家和計算機科學家使用和開發的一套技術轉變為更廣泛社群的基本工具包。

我們將使用$n$來表示樣本中不同資料點或觀測的數量,用$p$表示可用於**的變數數。例如,工資資料為3000人設定了12個變數,因此我們有$n$=3000個觀察值和$p$=12個變數(如年、年齡、工資等)。 在一些例子中,$p$可能相當大,比如數千甚至數百萬,例如在分析現代生物資料或網路廣告資料。

一般來說,我們會讓$x_$代表第$i$次觀測的第$j$變數的值,其中$i=1,2,...,n$和$j=1,2,...,p$。在本書中,$i$將用於表示樣本或觀測點的索引(從1到$n$),$j$將用於變數的索引(從1到$p$)。我們讓$x$表示乙個$n\times p$矩陣,它的第$\left ( i,j \right )$元素是$x_$。也就是說(也可以認為$x$是乙個具有n行和p列的**),

$x =\left ( \begin

x_ &x_  &...  &x_ \\

x_ &x_  &...  &x_ \\

...& ... & ... &... \\

x_&x_  &...  &x_

\end \right )$

有時我們會對$x$的行感興趣,可以寫成$x_,x_,...,x_$。這裡的$x_$是長度$p$的向量,包含用於第$i$次觀測的p個變數測量。也就是說,

$x_=\left ( \begin

x_\\

x_\\

...\\

x_\end \right )$

比如在工資資料中(wage data)中,$x_$表示長度為12的向量,由第$i$個人的年份、年齡、工資和其他的元素組成。

但在其他時候,我們會對$x$的列感興趣,這裡可以寫成$x_,x_,...,x_$,每個向量的長度都為$n$。

$\mathbf_=\left ( \begin

x_\\

x_\\

...\\

x_\end \right )$

比如在工資資料中(wage data)中,$x_$包含$n = 3000$的年份資料。

使用這個公式,可以將$x$寫成$x=\left ( \begin

x_ &x_  & ... & x_

\end \right )$。

我們使用$y_$表示第$i$個觀察點的響應變數,通常希望用於**,比如工資,因此我們可以寫上所有觀察點的響應變數:

$\mathbf=\left ( \begin

y_\\

y_\\

...\\

y_\end \right )$

於是觀察點可以由$\left \,y_ \right ),(x_,y_),...,(x_,y_) \right \}$組成,一般向量可以使用粗體標示。

ISLR學習筆記(1)統計學習簡介

前言 第二章理解 第二章主要是簡單的介紹了書的背景,主要強調在統計學習中並沒有免費的午餐,沒有一種方法適用於所有的問題,所以才要學習各種統計學習方法,目的針對實際問題找到適合的統計學習方法。準確性與解釋性 在統計學習中,我們的目的有的時候是為了觀察某一變數的影響,這時候我們更需要方法的解釋性,例如 ...

統計學習理論簡介

統計學習理論是一種研究訓練樣本有限情況下的機器學習規律的學科。它可以看作是基於資料的機器學習問題的乙個特例,即有限樣本情況下的特例。統計學習理論從一些觀測 訓練 樣本出發,從而試圖得到一些目前不能通過原理進行分析得到的規律,並利用這些規律來分析客觀物件,從而可以利用規律來對未來的資料進行較為準確的 ...

應用統計學與R語言實現學習筆記(一) 簡介

本部分內容是我這學期公選課 應用統計學 的學習筆記,主要參考書目為如下兩本 賈俊平,統計學 第五版 中國人民大學出版社,2012.何曉群,多元統計分析 第三版 中國人民大學出版社,2012.本篇為第一章節,也就是introduction 簡介 部分。常常聽到的一句話,好的科學 解決乙個科學問題,科學...