這個咋翻譯呢,線性擴充基?
無所謂其實, 這裡主是用它來處理因變數 和 自變數 的非線性關係的
是指通過對資料進行轉換來擴充或替換資料集的的特徵. 我最初的資料分析工具是r語言嘛, 當時沒有接觸ml這些什麼正則的概念, 就統計學理論. 在做線性模型的時候,擬合的不是很好, 我當時真的就憑感覺, 給方程加上一些高階項然後就擬合得可以了. 不過呢,後來還是放棄了,因為很難解釋, 尤其是經管方面, 模型的引數的解釋尤為重要這點跟ml不太同, 當然,更不會用神經網路, 我感覺我的水平,怕是解釋不清楚裡面是怎麼工作的.
這裡的 basis expansion, 舉個栗子, 給定輸入特徵x, basis expansion 可以將x 擴充到多個特徵, 如 1, x, x^2 等. 這種對映允許各類學習演算法來捕捉資料中的非線性趨勢, 同時仍然使用線性模型來分析這些轉換後的特徵. 比如增加一些非線性的高階項等, 線性而言, 其中有乙個比較耳熟的名稱多項式回歸
case1 線性回歸
進行乙個公升維(多項式項)的變換
\(\phi(x) = [1,x, x^2]\)
即之前是對乙個特徵求引數, 現在變為了3個特徵了.
\(w_0 + w_1x + w_2x^2 = \phi(x).[w_0, w_1, w_2 ]\)
這樣對擬合出來的曲線就會更接近樣本了.
其實也就增加了一些高階項, but, 這些高階項要如何選擇, 同時防止過擬合呢. 從理論上其實非常明顯,增加訓練資料樣本即可. 只要資料樣本足夠, 即便是深度學習也很簡單, 直接用全連線層, 資料量達到無窮, 就是真實樣總體了, 然後也根本沒有擬合這一說法.
比較現實的是, 資料的獲取成本很高, 之前在一家市場研究的公司實習, 做處方藥呼叫的, 物件是主治醫師級別的, 乙份問卷的成本在800元左右, 我在做分析的時候,都是小心翼翼的.
當然從理論和技術上, 可以對樣本自身進行公升維來擬合複雜模型, 但可能在解釋性上和實際應用上,並不能達到客戶的需求, 這很值得考量.
我也是近一兩年才有所發現, 可能, 之前在學校搞的哪些水**, 真的是有問題的. 我們營銷專業的**, 在涉及建模, 用的工具是spss, 所有理論的基礎是概率論和梳理統計. 驗證模型好壞用檢驗, 然而在在對資料建模時, 幾乎沒有劃分測試集和訓練集,並極力追求最好地擬合, 而讓其失去了泛化能力, 還有比較過分的一點, 為了模型能更好擬合, 對資料還進行了"微度調整", 這雖然可恥, 但也是需要技術的, 比如對模型內部執行機制瞭如指掌等.不過也好, 也感覺到經管的學術圈, 個人一點小接觸,真的要論造假, 我感覺我覺得混得風生水起, 就是有點昧良心. 當然辯證來看, 不得不說的一點是, 這段經歷讓給我的數理方面打下了較為堅實的基礎.
模型複雜度
之前追求複雜模型是為了更好擬合資料, 反而走向了另乙個極端, 這現在看來是有些糟糕. 如何用誤差這個指標來衡量的話, 通常有這樣的乙個關係:
模型複雜度越高, 越容易過擬合, 表現為在訓練集的誤差小, 在驗證集上誤差大
就是測試, 試驗可以, 然後市場推廣能力差唄.
即: 期望值與真實值的差異,用來衡量模型和真實情況的查差異, 同時, 隨著模型的複雜度增加, bias減少.
給定 n 個資料集 d, 在不同的資料集d上訓練出不同模型 h(x), 則期望值(在所有的h(x) 上的平均) 記為:
\(e_d h(x)\)
假設對於, x, 真實值記為 \(y(x)\), 其出現的先驗概率為 p(x), 則:
\(bais ^ 2 = \int _x [(e_dh(x) - y(x)]p(x)) dx\)
表示在一定資料集上訓練的模型跟其餘模型的期望的差異
\(variance = \int _x [(e_dh(x) - \bar h(x)]p(x)) dx\)
小結一波, 這篇是從比較巨集觀的角度來對訓練的模型進行評估, 首先一條線是欠擬合 vs 過擬合. 回想之前的經歷, 竟然都一直為過擬合而奮鬥, 未來假設檢驗的p值而奮鬥, 驀然感到,好像有點偏執了, 當然, 與之對應的是模型的複雜度, bais. 訓練時非常good, 然而測試就不行了, 沒有市場競爭力, 畢竟未來的市場如何, 並非是按假設資料來走的, 模型永遠只是模型, 在欠,過擬合之間的均衡點.
另外一條線是關於模型的variance, 我認為取決2點, 樣本資料的假設分布和模型的選擇, 當然也跟模型複雜度相關, 這個問題有些大了, 我覺得最好的就是, 如果時間允許, 機器效能很強的話, 多整整試試不同方案, 選最好的不就行了嗎, 或者都要(整合學習) 這樣的再來衡量. 還有個人覺得最為重要的前提是特徵工程吧. 當然這裡不再討論範圍之內哦.
模型評估與優化 2
損失函式 loss function 是用來估量模型的 值與真實值的不一致程度,是乙個非負實值函式。損失函式越小,模型的魯棒性就越好。平方損失函式 絕對值損失函式 對數損失函式 對數損失函式 cross entropy loss 該損失函式用到了極大似然估計的思想。p y x 通俗的解釋就是 在當前...
資料倉儲之模型評估與優化
模型 資料過程 服務環境 組織概念模型 業務覆蓋 建模過程 服務流程 資料架構 組織結構 邏輯模型 主題覆蓋 過程管理 服務評價 上游系統 組織分工 物理模型 主資料下游系統 組織能力 參考資料 生命週期 交易資料 資料質量 組織 資料質量 環境 上游資料 應通過增量等各種方式減少上游 資料流入規模...
keras評估模型
當建立好模型並且用來訓練之後,如何評估模型的好壞,準確度又如何呢?三種常用方法 1 使用自動驗證方法 在 fit 函式中增加乙個validation split引數,該引數用來進行驗證效果 該引數可以自由設定,一般設定為20 或者30 也就是測試集佔總資料集的20 或者30 的資料用來進行驗證,其餘...