資料分析中常見問題

2021-09-02 18:46:08 字數 1329 閱讀 2210

(1)p-p圖。以樣本的累積頻率作為橫座標,以安裝正太分布計算的相應累計概率作為縱座標,把樣本值表現為直角座標系中的散點,如果服從正太分布,則樣本點圍繞第一象限的對角線分布。

(2)q-q圖。以樣本的分位數作為橫座標,以按照正態分佈計算的相應分位點作為縱座標,把樣本表現為指教座標系的散點。如果資料服從正態分佈,則樣本點應該呈一條圍繞第一象限對角線的直線。

(3)直方圖。判斷是否以鍾形分布,同時可以選擇輸出正態性曲線

(4)箱式圖。觀測離群值和中位數

(5)莖葉圖。類似於直方圖,但實質不同。

(1)偏度係數和峰度係數

偏度計算公式:

峰度計算公式:

其中,結論1:用樣本估計整體;

結論2:樣本的平均值呈正態分佈;

結論3:在無法知道總體的情況下,可以用樣本估計整體。(除以n-1)

過擬合是指為了得到一致假設而使假設變得過度嚴格。

(1)建模樣本選取有誤,包括樣本數量太少,選擇方法錯誤,樣本標籤錯誤等,導致選取的樣本的資料不足以代表預定的分類規則。

(2)樣本噪音干擾過大,從而擾亂分類規則。

(3)假設的模型無法合理存在,或者說是假設成立的條件實際並不成立

(4)引數太多,使得模型複雜度過高。

(5)對於決策樹模型,如果我們對於其生長沒有合理的限制,其自由生長有可能使節點只包含單純的事件資料(event)或非事件資料(no event),使其雖然可以完美匹配(擬合)訓練資料,但是無法適應其他資料集。

(6)對於神經網路模型:a)對樣本資料可能存在分類決策面不唯一,隨著學習的進行,,bp演算法使權值可能收斂過於複雜的決策面;b)權值學習迭代次數足夠多(overtraining),擬合了訓練資料中的雜訊和訓練樣例中沒有代表性的特徵。

(1)增加樣本資料;

(2)選取合適的停止訓練標準,使對機器的訓練在合適的程度;

(3)保留驗證資料集,對訓練成果進行驗證;

(4)獲取額外資料進行交叉驗證;

(5)正則化,即在進行目標函式或代價函式優化時,在目標函式或代價函式後面加上乙個正則項,一般有l1正則與l2正則等。

(6)進行特徵選擇、特徵降維

(7)控制模型的複雜度。如進行剪枝、控制樹深度;增大分割平面間隔;

未完,,待繼補充。。。

參考:

開發中常見問題

6.開發中常見問題 uiscrollview的自動布局 1.怎麼確定scrollview的約束 通過新增view設定他的約束來控制uiscorllview的滾動範圍 size和center 1.以後盡量先設尺寸在設定center,從frame中取時,他會先確定中心點後沿4周擴散形成設定的尺寸 如果到...

開發中常見問題

本文目錄 這篇文章是專門用來記錄開發中一些常見的bug以及常用的零碎知識點,我會隔一段時間更新內容 回到頂部 1.重複呼叫2次loadview和viewdidload 最好不要在uiviewcontroller的loadview方法中改變狀態列的可視性 比如狀態列由顯示變為隱藏 或者由隱藏變為顯示 ...

資料分析的一些常見問題

資料分析和資料探勘,是大資料應用的核心技術,也是大資料應用的關鍵所在。資料分析重要,但是,很多時候卻不知道該如何去做,面對大量的資料,卻無從下手。概括起來,經常面臨的困難有 1 不知道要分析什麼?分析目的 不知道要分析什麼,也就是分析目的不明確。經常有學員告訴我,領導給了一大堆資料給我,要我分析一下...