當我們面臨乙個實際統計**或推斷問題時,往往有許多方法可以選擇,這時我們面臨乙個很關鍵的問題:選擇哪種統計方法是最有效最經濟的?為什麼這麼選擇?
2.1 **精度和模型解釋性
模型解釋性是指模型能夠說明每乙個引數是如何對結果施加影響的。一般來說,**精度越高的模型,其解釋性就越低。下圖列出幾種統計方法在柔性和解釋性之間的權衡。
2.2 指導學習或無指導學習
指導學習處理「對每乙個觀測變數都有相應的響應變數」這類問題。許多統計方法歸於此類,例如回歸分析,支援向量機等。無指導學習是應對「只有觀測變數,沒有相應變數」的問題,比如聚類分析。
2.3 回歸和分類
首先明確乙個概念,定性變數(又稱分類變數)和定量變數。當問題中響應變數是定量變數時,我們稱之為回歸分析,當問題中響應變數為定性變數時,我們稱之為分類。
考慮清楚以上三個關鍵問題,確定是有指導的或無指導的又或者是半指導的,變數是定性還是定量,最後考慮是目的是**還是推斷。
例如,我們想根據受教育程度、年齡來估計乙個人的預期薪水時,我們就面臨乙個有響應變數,且響應變數是定量變數的問題。那麼我們感興趣的如果是這兩個變數是如何影響薪水的,那麼可以選擇解釋性較高的線性回歸方法。選擇乙個恰當的統計方法,是解決問題的第一步,也是最重要的一步。選對方向往往比走得快要重要。
順序統計量的選擇
在選擇順序統計量中,期望的時間複雜度是o n 主要是對於給定的陣列,從其中選擇出第k小的值。其與原理 利用了快速排序中的隨機分割區間的函式,將第k小的值分割到乙個區域裡面,相當於把該問題劃分的時候只劃分了乙個子問題,就沒有o lgn 根據快速排序的時間複雜度為o nlgn 可知,其時間複雜度為o n...
資料分析的統計方法選擇小結 變數之間的關聯性分析
一 兩個變數之間的關聯性分析 1.兩個變數均為連續型變數 1 小樣本並且兩個變數服從雙正態分佈,則用pearson相關係數做統計分析 2 大樣本或兩個變數不服從雙正態分佈,則用spearman相關係數進行統計分析 2.兩個變數均為有序分類變數,可以用spearman相關係數進行統計分析 3.乙個變數...
選擇任意順序統計量的問題
concept 順序統計量 order statistic 乙個集合中按照大小順序排列的位數。tips 1 對集合進行快速排序。2 將要求的第k位順序統計量和第一步得到的pivot在陣列中的位置相比較,如果相等,則pivot就是第k位的值,否則根據比較結果進行遞迴。首先,快速排序partition ...