1)回歸問題:輸入變數和輸出變數均為連續變數的**問題稱為回歸問題
2)輸出變數為有限個離散變數的**問題稱為分類問題
3)輸入變數與輸出變數均為變數序列的**問題稱為標註問題
1)損失函式:度量模型一次**的好壞。損失函式值越小,模型越好
2)風險函式:風險函式是損失函式的期望
3)經驗風險:訓練資料集上的平均損失稱為經驗風險
4)經驗風險最小化:經驗風險最小的模型為最優模型。適用於樣本容量足夠大的情況,當樣本容量足夠大時,則會產生過擬合
5)結構風險最小化:為解決過擬合現象而產生。結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。
若一味追求提高對訓練資料的**能力,所選模型的複雜度則會比「真」模型更高,這種現象稱為過擬合。過擬合是指學習時選擇的模型所包含的引數過多,以致於出現這一模型對已知資料**的很好,但對未知資料**得很差的現象。可以說模型選擇旨在避免過擬合併提高模型的**能力。——統計學方法
因為訓練資料本身存在雜訊,所以過擬合訓練集的模型對未知資料的**效果並不理想。
相同點:都用於避免過擬合
不同點:
l1可以讓一部分特徵的係數縮小到0,從而間接實現特徵選擇。所以l1適用於特徵之間有關聯的情況。
l2讓所有特徵的係數都縮小,但是不會減為0,它會使優化求解穩定快速。所以l2適用於特徵之間沒有關聯的情況
泛化能力指模型對未知資料的**能力,通常採用測試誤差來評價學習方法的泛化誤差。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學基礎(一)統計摘要
總體 population 包含所研究的全部個體 資料 的集合 樣本 sample 研究中實際觀測或調查的一部分個體 選擇性偏差 selection bias 在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差,屬於系統誤差。eg.在一項身高研究中,選擇籃球運動員作為樣本。測量偏差 measu...
統計學基礎 三
分類資料 眾數 出現最多的變數值,峰值 順序資料 中位數 位置在中間的變數值 位置 分位數 上四分位位置 假設目前有9個資料,則下四分位 9 4 2.25,資料位於第二位和第三位資料的25 的位置。假設目前有9個資料,則上四分位 3 9 4 6.75,資料位於第六位和第七位資料的75 位置。數值型資...