畢設學習之路(2020 01 05)

2021-10-01 22:35:01 字數 1456 閱讀 7664

本週學習了《統計學習導論》的第三章,完成實驗及部分習題。

區別於上週所學習的內容,第三章詳細介紹了線性回歸這一方法,概念變得更多,我自己看書的時候公式太多導致感覺有些混亂,在這裡正好重新梳理一下。

線性回歸是一種有效並得到廣泛應用的統計學習方法,許多方法都可以看做是線性回歸的推廣和擴充套件。

首先是簡單線性回歸,簡單線性回歸是一種非常簡單的根據單一**變數x**定量響應變數y的方法。從數學上可以記為:y≈β0+β₁x,類似於一次方程。想要**響應變數,則需要求β0和β₁,也就是模型的係數或引數,書中採用最小二乘法選擇β0和β₁,這樣使得rss最小(rss指**的響應變數和實際值之間的差值)。

通過計算求出的係數與真實的係數不一定是相同的,為了得到精確的**值,則需要對係數估計值的準確性進行評估,用ε定義均值為0的隨機誤差項,則x與y間的關係可表示為y=f(x)+ε,假設f可用線性函式近似,則y=β0+β₁x+ε,這個式子定義了總體回歸直線,是對x和y之間真實關係的最佳線性近似。在實際中,總體回歸直線是無法觀測的,而最小二乘線是可以被計算的。兩者間具有微小的差異,因為樣本均值和總體均值的含義是不同的。線性回歸和隨機變數的均值估計之間的模擬是乙個恰當的基於偏差概念的模擬。也就是說,以樣本均值估計總體均值,是無偏的,是平均的,但就一組特定的觀測值而言,可能高估也可能低估。那麼偏差會有多遠?書中以標準誤差se(u¯)²=σ²/n表示樣本均值偏離總體均值的實際值的平均量,σ是變數y的每個實現值yi的標準差。同樣可以求出β0和β₁的標準誤差se(β0¯)²,se(β₁¯)²。對σ²的估計稱為殘差標準誤rse=√(rss/(n-2))。標準誤差可用於計算置信區間:β¯±2·se(β¯)。標準誤差也可以用來對係數進行假設檢驗,如零假設和備擇假設。

評價模型的準確性,通常使用殘差標準誤rse和r²統計量。

然後是多元線性回歸,可以看作類似多元一次方程,同樣使用最小二乘法估計係數,使殘差平分和rss最小。

在進行多元線性回歸時,其中有一些重要問題如:1. 響應變數和**變數之間是否有關係?使用假設檢驗,通過計算f統計量來判斷。2. 選定重要變數:向前選擇、向後選擇、混合選擇。3. 模型擬合:以rse和r²作為指標。4. **。

其他注意事項。如定性**變數,回歸方程則可以解釋為兩種或多種取值的結果。以及線性模型的擴充套件,如去除可加性假設和非線性關係。擬合資料集時可能會出現很多問題,常見的有:1. 非線性的響應-**關係。2. 誤差項自相關。3. 誤差項方差非恆定。4. 離群點。5. 高槓桿點。6. 共線性。

線性回歸於k最近鄰法的比較。k近鄰法也可用於回歸。當真實關係是非線性時,knn的效果比線性回歸更好,反之當真實關係為線性時,線性回歸效果更好。此外,變數數目的不同,兩者優劣也不同。

本章詳細介紹了線性回歸的相關知識,通過計算誤差公式來判斷準確性,其中的公式有些難記住,經常看到後面忘記前面,導致總是要往回看。其中部分文本性較多的內容看的比較快,有些地方沒有完全理解。

為hadoop畢設的忙碌之路

畢設選了這麼個勞心的題目 基於hadoop的醫療資訊系統的設計與實現。除了 大資料 這個很抽象的詞語,就木有什麼了 然後開始看各種基礎知識。簡單的看了下,我們開始第一步 hadoop的環境搭建。好吧,麻煩來了,集群環境怎麼搭建?我只有自己的小本本,還只是 i5的核心,不夠網上大神們說的那個好,自己平...

php畢設周記 畢設周記

第一周 一 老師講解畢業設計總體要求和注意事項,確定題目為 設計。第一周 二 老師講解查詢檔案的方法。圍繞畢設主題,充分利用學校圖書館 期刊 雜誌 網路等資源,對所選取的資料將進行反覆閱讀並理解,遇到複雜難 懂的問題及時與導師聯絡,取得幫助。最終確定了所需要的硬體裝置。第二週 一 開始研讀。熟悉本課...

畢設demo寫好

2015年1月20日 14 41 47 階段性暫停!把執行結果截圖給了老師,老師說先整理下文件,然後下學期來了再部署到伺服器上。那麼,下學期來了,估計也要把epm和cr1000什麼的搞好了。先總結一下目前的情況好了 0.用到的技術 python語言,webpy框架,mysql資料庫,nginx部署,...