(1)p-p圖。以樣本的累積頻率作為橫座標,以安裝正太分布計算的相應累計概率作為縱座標,把樣本值表現為直角座標系中的散點,如果服從正太分布,則樣本點圍繞第一象限的對角線分布。
(2)q-q圖。以樣本的分位數作為橫座標,以按照正態分佈計算的相應分位點作為縱座標,把樣本表現為指教座標系的散點。如果資料服從正態分佈,則樣本點應該呈一條圍繞第一象限對角線的直線。
(3)直方圖。判斷是否以鍾形分布,同時可以選擇輸出正態性曲線
(4)箱式圖。觀測離群值和中位數
(5)莖葉圖。類似於直方圖,但實質不同。
(1)偏度係數和峰度係數
偏度計算公式:
峰度計算公式:
其中,結論1:用樣本估計整體;
結論2:樣本的平均值呈正態分佈;
結論3:在無法知道總體的情況下,可以用樣本估計整體。(除以n-1)
過擬合是指為了得到一致假設而使假設變得過度嚴格。
(1)建模樣本選取有誤,包括樣本數量太少,選擇方法錯誤,樣本標籤錯誤等,導致選取的樣本的資料不足以代表預定的分類規則。
(2)樣本噪音干擾過大,從而擾亂分類規則。
(3)假設的模型無法合理存在,或者說是假設成立的條件實際並不成立
(4)引數太多,使得模型複雜度過高。
(5)對於決策樹模型,如果我們對於其生長沒有合理的限制,其自由生長有可能使節點只包含單純的事件資料(event)或非事件資料(no event),使其雖然可以完美匹配(擬合)訓練資料,但是無法適應其他資料集。
(6)對於神經網路模型:a)對樣本資料可能存在分類決策面不唯一,隨著學習的進行,,bp演算法使權值可能收斂過於複雜的決策面;b)權值學習迭代次數足夠多(overtraining),擬合了訓練資料中的雜訊和訓練樣例中沒有代表性的特徵。
(1)增加樣本資料;
(2)選取合適的停止訓練標準,使對機器的訓練在合適的程度;
(3)保留驗證資料集,對訓練成果進行驗證;
(4)獲取額外資料進行交叉驗證;
(5)正則化,即在進行目標函式或代價函式優化時,在目標函式或代價函式後面加上乙個正則項,一般有l1正則與l2正則等。
(6)進行特徵選擇、特徵降維
(7)控制模型的複雜度。如進行剪枝、控制樹深度;增大分割平面間隔;
未完,,待繼補充。。。
參考:
開發中常見問題
6.開發中常見問題 uiscrollview的自動布局 1.怎麼確定scrollview的約束 通過新增view設定他的約束來控制uiscorllview的滾動範圍 size和center 1.以後盡量先設尺寸在設定center,從frame中取時,他會先確定中心點後沿4周擴散形成設定的尺寸 如果到...
開發中常見問題
本文目錄 這篇文章是專門用來記錄開發中一些常見的bug以及常用的零碎知識點,我會隔一段時間更新內容 回到頂部 1.重複呼叫2次loadview和viewdidload 最好不要在uiviewcontroller的loadview方法中改變狀態列的可視性 比如狀態列由顯示變為隱藏 或者由隱藏變為顯示 ...
資料分析的一些常見問題
資料分析和資料探勘,是大資料應用的核心技術,也是大資料應用的關鍵所在。資料分析重要,但是,很多時候卻不知道該如何去做,面對大量的資料,卻無從下手。概括起來,經常面臨的困難有 1 不知道要分析什麼?分析目的 不知道要分析什麼,也就是分析目的不明確。經常有學員告訴我,領導給了一大堆資料給我,要我分析一下...